每日精選AI研究論文及翻譯
大型语言模型(LLMs)在生成回应时往往带有内在偏见,这削弱了其在实际应用中的可靠性。现有的评估方法常常忽视长篇回应中的偏见以及LLM输出的内在变异性。为应对这些挑战,我们提出了FiSCo(细粒度语义计算),一种新颖的统计框架,通过检测跨人口群体的长篇回应中的微妙语义差异,来评估LLMs的群体层面公平性。与以往专注于情感或词汇层面比较的研究不同,FiSCo超越了表层分析,在主张层面运作,利用蕴含检查来评估跨回应间意义的一致性。我们将模型输出分解为语义上独立的主张,并应用统计假设检验来比较群体间与群体内的相似性,从而实现对微妙偏见的稳健检测。我们形式化了一个新的群体反事实公平定义,并在涵盖性别、种族和年龄的合成及人工标注数据集上验证了FiSCo。实验表明,FiSCo在减少LLM随机变异性影响的同时,能更可靠地识别出细微偏见,其表现优于多种评估指标。
我們提出AnimaX,這是一種前饋式三維動畫框架,它將視頻擴散模型的運動先驗與基於骨架的動畫可控結構相結合。傳統的運動合成方法要么受限於固定的骨架拓撲結構,要么需要在高維變形空間中進行成本高昂的優化。相比之下,AnimaX有效地將基於視頻的運動知識轉移到三維領域,支持具有任意骨架的多樣化關節網格。我們的方法將三維運動表示為多視角、多幀的二維姿態圖,並實現了基於模板渲染和文本運動提示的聯合視頻-姿態擴散。我們引入了共享的位置編碼和模態感知嵌入,以確保視頻與姿態序列之間的時空對齊,從而有效地將視頻先驗轉移到運動生成任務中。生成的多視角姿態序列通過三角測量轉化為三維關節位置,並通過逆向運動學轉換為網格動畫。在一個新整理的包含160,000個綁定序列的數據集上訓練後,AnimaX在VBench上實現了在泛化性、運動保真度和效率方面的最新成果,為類別無關的三維動畫提供了一個可擴展的解決方案。項目頁面:https://anima-x.github.io/{https://anima-x.github.io/}。
我们推出Matrix-Game,这是一个用于可控游戏世界生成的交互式世界基础模型。Matrix-Game采用两阶段训练流程,首先进行大规模无标签预训练以理解环境,随后进行带有动作标签的训练以生成交互式视频。为此,我们精心构建了Matrix-Game-MC,这是一个全面的《我的世界》数据集,包含超过2,700小时的无标签游戏视频片段和超过1,000小时的高质量标签片段,这些片段带有精细的键盘和鼠标动作注释。我们的模型采用可控的图像到世界生成范式,基于参考图像、运动上下文和用户动作进行条件生成。拥有超过170亿参数的Matrix-Game,能够精确控制角色动作和摄像机移动,同时保持高视觉质量和时间连贯性。为了评估性能,我们开发了GameWorld Score,这是一个统一的基准,用于衡量《我的世界》世界生成的视觉质量、时间质量、动作可控性和物理规则理解。大量实验表明,Matrix-Game在所有指标上均优于先前的开源《我的世界》世界模型(包括Oasis和MineWorld),在可控性和物理一致性方面表现尤为突出。双盲人类评估进一步证实了Matrix-Game的优越性,突显了其在不同游戏场景中生成感知真实且精确可控视频的能力。为了促进未来关于交互式图像到世界生成的研究,我们将在https://github.com/SkyworkAI/Matrix-Game上开源Matrix-Game模型权重和GameWorld Score基准。
近期,如結果監督的GRPO等強化學習方法,已推動了大語言模型(LLMs)中的思維鏈推理進展,然而這些方法在多模態大語言模型(MLLMs)中的適應性尚未被探索。為解決MLLM後訓練方法缺乏嚴謹評估的問題,我們引入了SEED-Bench-R1,這是一個包含複雜現實世界視頻的基準測試,要求平衡的感知與推理能力。它提供了一個大型訓練集,並評估了在三個逐步升級的挑戰中的泛化能力:分佈內、跨環境及跨環境任務情境。利用SEED-Bench-R1,我們發現標準GRPO雖然提升了答案準確性,但往往降低了推理步驟與答案間的邏輯連貫性,一致性率僅為57.9%。這源於獎勵信號僅關注最終答案,鼓勵走捷徑,以及嚴格的KL懲罰限制了探索。為解決此問題,我們提出了GRPO-CARE,這是一個一致性感知的強化學習框架,無需顯式監督即可優化答案正確性和推理連貫性。GRPO-CARE引入了雙層獎勵機制:(1)基礎獎勵用於答案正確性,(2)自適應一致性獎勵,通過比較模型的推理至答案的可能性(通過一個緩慢演進的參考模型)與同組其他模型來計算。這一雙重機制放大了既正確又邏輯連貫的推理路徑的獎勵。用此自適應獎勵替代KL懲罰後,GRPO-CARE在SEED-Bench-R1上超越了標準GRPO,在最難評估級別上實現了6.7%的性能提升,一致性提高了24.5%。它還展現出強大的遷移能力,在多樣化的視頻理解基準測試中提升了模型性能。我們的工作貢獻了一個系統設計的基準測試和一個可推廣的後訓練框架,推動了更可解釋和魯棒的MLLMs的發展。
軟件工程(SWE)最近已成為下一代大型語言模型(LLM)代理的關鍵試驗場,要求其在兩個關鍵維度上具備內在能力:持續迭代的問題解決(例如,超過50輪交互)和長上下文依賴解析(例如,超過32k個標記)。然而,SWE中的數據整理過程仍然以耗時著稱,因為它嚴重依賴於手動註釋來過濾代碼文件,並需要設置專用的運行環境來執行和驗證單元測試。因此,現有的大多數數據集僅限於幾千個來自GitHub的實例。為此,我們提出了一種增量式、自動化的數據整理管道,系統地擴展了SWE數據集的數量和多樣性。我們的數據集包含來自2,531個不同GitHub倉庫的10,169個真實世界的Python任務實例,每個實例都附帶一個用自然語言指定的任務和一個專用的運行環境鏡像,用於自動化單元測試驗證。我們精心整理了超過8,000條成功通過運行時驗證的訓練軌跡,這些軌跡來自我們提出的SWE數據集。當在這些軌跡上微調Skywork-SWE模型時,我們發現了一個顯著的數據擴展現象:隨著數據量的增加,訓練模型在LLM中的軟件工程能力持續提升,且未顯示出飽和跡象。值得注意的是,我們的Skywork-SWE模型在SWE-bench Verified基準測試中達到了38.0%的pass@1準確率,且未使用驗證器或多輪滾動,這在基於OpenHands代理框架的Qwen2.5-Coder-32B LLM中建立了新的最先進(SOTA)水平。此外,通過引入測試時擴展技術,性能進一步提升至47.0%的準確率,超越了之前32B以下參數模型的SOTA結果。我們發布了Skywork-SWE-32B模型檢查點,以加速未來的研究。
本文提出ScaleCap,一种在推理阶段可扩展的图像描述生成策略,旨在生成全面且细致的图像描述。高质量图像描述面临的关键挑战源于大规模视觉语言模型(LVLMs)的内在偏差:多模态偏差导致描述粒度失衡,对某些元素详细描述而对其他元素仅作粗略提及;语言偏差则引发对不存在对象的虚构描述。为解决这些问题,我们提出了一种可扩展的去偏差描述策略,该策略随着推理预算的增加,持续丰富并校准描述内容。具体而言,我们引入了两个新颖组件:启发式问答与对比句子评分。前者基于图像生成内容特定问题并予以解答,逐步将相关信息注入描述中;后者采用句子级离线对比解码,有效识别并消除由语言偏差引起的虚构内容。随着推理成本的增加,ScaleCap提出更多启发式问题,逐步捕捉更多视觉细节,生成更为准确、平衡且信息丰富的描述。广泛的多模态对齐实验验证了ScaleCap的有效性。使用ScaleCap标注450K张图像并将其用于LVLM预训练,在11个广泛使用的基准测试中均实现了性能的持续提升。此外,ScaleCap在两项额外任务中展示了生成描述的超凡丰富度与保真度:在视觉问答任务中以描述替代图像,以及通过描述重建图像以评估语义覆盖范围。代码已发布于https://github.com/Cooperx521/ScaleCap。
照片修飾已成為當代視覺敘事不可或缺的一部分,使用戶能夠捕捉美學並表達創意。雖然如Adobe Lightroom等專業工具提供了強大的功能,但它們需要大量的專業知識和手動操作。相比之下,現有的基於人工智能的解決方案雖然提供了自動化,但往往因可調節性有限和泛化能力差而無法滿足多樣化和個性化的編輯需求。為彌補這一差距,我們引入了JarvisArt,這是一個由多模態大語言模型(MLLM)驅動的代理,能夠理解用戶意圖,模仿專業藝術家的推理過程,並智能協調Lightroom內的200多種修飾工具。JarvisArt經歷了兩階段訓練過程:首先進行思維鏈監督微調以建立基本推理和工具使用技能,隨後進行修飾群組相對策略優化(GRPO-R)以進一步提升其決策能力和工具熟練度。我們還提出了代理至Lightroom協議,以促進與Lightroom的無縫集成。為評估性能,我們開發了MMArt-Bench,這是一個基於真實用戶編輯構建的新穎基準。JarvisArt展示了用戶友好的交互、卓越的泛化能力以及對全局和局部調整的精細控制,為智能照片修飾開辟了新途徑。值得注意的是,在MMArt-Bench上,JarvisArt在內容保真度的平均像素級指標上比GPT-4o提升了60%,同時保持了相當的指令遵循能力。項目頁面:https://jarvisart.vercel.app/。
在自然语言处理(NLP)领域,人工标注的变异性(即标注分歧)是普遍存在的,这往往反映了任务的主观性和样本的模糊性等重要信息。尽管大型语言模型(LLMs)越来越多地用于自动标注以减少人力投入,但其评估通常集中于预测多数投票的“真实”标签。然而,这些模型是否也能捕捉到具有信息价值的人工标注变异性,目前尚不明确。本研究通过广泛评估LLMs在无法获取重复人工标注的情况下预测标注分歧的能力,填补了这一空白。我们的结果表明,LLMs在建模分歧方面存在困难,这一点可能被基于多数标签的评估所忽视。值得注意的是,虽然RLVR(基于可验证奖励的强化学习)风格的推理通常能提升LLM的性能,但在分歧预测方面却降低了表现。我们的发现强调了评估和改进LLM标注者在分歧建模方面能力的迫切需求。代码与数据详见https://github.com/EdisonNi-hku/Disagreement_Prediction。
在现实世界的数据库应用中,解决复杂的SQL问题仍然是一个显著的瓶颈。当前的大型语言模型(LLMs)虽然在文本到SQL的翻译方面表现出色,但在更具挑战性的SQL问题调试任务上尚未经过严格评估。为了填补这一空白,我们引入了BIRD-CRITIC,一个新的SQL问题调试基准,包含530个PostgreSQL任务(BIRD-CRITIC-PG)和570个多方言任务(BIRD-CRITIC-Multi),这些任务均提炼自真实用户问题,并在新环境中重放,以便进行严格评估。基线评估凸显了任务的复杂性,领先的推理模型O3-Mini在BIRD-CRITIC-PG上的成功率仅为38.87%,在BIRD-CRITIC-Multi上为33.33%。同时,推进开源模型在数据库任务中的应用,对于赋能本地开发并保障数据隐私至关重要。因此,我们提出了Six-Gym(Sql-fIX-Gym),一个旨在提升开源模型SQL问题调试能力的训练环境。该环境采用SQL-Rewind策略,通过从已验证的SQL中逆向工程问题,自动生成可执行的问题-解决方案数据集。然而,流行的基于轨迹的微调方法并未充分利用显著的监督信号。我们进一步提出了f-Plan Boosting,它从SQL解决方案中提取高级调试计划,使教师LLMs能够生成73.7%更多的成功轨迹用于训练。我们将这些组件集成到一个开源代理Bird-Fixer中。基于Qwen-2.5-Coder-14B,Bird-Fixer在BIRD-CRITIC-PG上的成功率达到38.11%,在BIRD-CRITIC-Multi上为29.65%,超越了Claude-3.7-Sonnet和GPT-4.1等领先的专有模型,标志着在普及复杂SQL调试能力方面迈出了重要一步。排行榜和源代码可访问:https://bird-critic.github.io/
大型語言模型(LLMs)在推理任務中取得了顯著進展,然而監督微調(SFT)與強化學習(RL)的最佳整合仍是一個根本性挑戰。通過從基於熵的角度對詞元分佈、學習動態及整合機制進行全面分析,我們揭示了這些範式之間的關鍵差異:SFT引發了LLM策略分佈的粗粒度全局變化,而RL則進行細粒度的選擇性優化,其中熵作為訓練效果的重要指標。基於這些觀察,我們提出了監督強化微調(SRFT),這是一種單階段方法,通過熵感知加權機制統一了兩種微調範式。我們的方法同時應用SFT和RL,直接利用示範和自我探索的展開來優化LLM,而非通過兩階段的序列方法。大量實驗表明,SRFT在五個數學推理基準上達到了59.1%的平均準確率,比零RL方法高出9.0%,並在三個分佈外基準上高出10.9%。
潛在擴散模型已成為高效視頻生成的主要範式。然而,隨著用戶對高分辨率輸出的期望不斷提升,僅依賴潛在計算已顯不足。一種有前景的方法將過程解耦為兩個階段:語義內容生成與細節合成。前者在較低分辨率下採用計算密集型的基礎模型,而後者則利用輕量級級聯視頻超分辨率(VSR)模型來實現高分辨率輸出。本研究專注於探討當前尚未充分研究的級聯VSR模型的關鍵設計原則。首先,我們提出了兩種退化策略,以生成更能模擬基礎模型輸出特徵的訓練對,確保VSR模型與其上游生成器之間的一致性。其次,通過系統分析(1)時間步採樣策略,(2)低分辨率(LR)輸入上的噪聲增強效應,我們為VSR模型行為提供了關鍵見解。這些發現直接指導了我們的架構與訓練創新。最後,我們引入了交錯時間單元與稀疏局部注意力機制,以實現高效的訓練與推理,大幅降低計算開銷。大量實驗證明了我們框架相較於現有方法的優越性,消融研究也確認了每項設計選擇的有效性。我們的工作為級聯視頻超分辨率生成建立了一個簡單而有效的基準,為未來高效級聯合成系統的發展提供了實用指導。
無分類器指導(CFG)已成為現代條件擴散模型中的關鍵組成部分。儘管在實踐中極為有效,但CFG提升質量、細節和提示對齊的內在機制尚未完全被理解。我們通過在頻域中分析CFG的效果,提出了一種新穎的視角,展示了低頻和高頻對生成質量的不同影響。具體而言,低頻指導主導全局結構和條件對齊,而高頻指導主要增強視覺保真度。然而,在所有頻率上應用統一尺度——如標準CFG所做——會導致高尺度下的過度飽和與多樣性降低,以及低尺度下的視覺質量下降。基於這些洞察,我們提出了頻率解耦指導(FDG),這是一種有效的方法,將CFG分解為低頻和高頻組件,並對每個組件應用獨立的指導強度。FDG在低指導尺度下提升了圖像質量,並通過設計避免了高CFG尺度的弊端。通過在多個數據集和模型上的廣泛實驗,我們證明FDG在保持多樣性的同時持續提升樣本保真度,相較於CFG,改善了FID和召回率,確立了我們的方法作為標準無分類器指導的即插即用替代方案。
代碼轉換(Code-switching, CSW)是指在單一對話中交替使用兩種或更多語言的現象。這一現象在多語言社群中極為普遍,且在網路內容中日益常見,用戶在日常交流中自然地混合使用多種語言。因此,作為內容處理與生成核心的大型語言模型(LLMs)經常接觸到代碼轉換的輸入。鑑於其廣泛應用,理解LLMs如何處理並推理此類混合語言文本至關重要。本文通過生成代碼轉換版本的推理與理解基準測試,系統性地評估了LLM在代碼轉換下的理解能力。研究發現,當外語詞彙打斷英語文本時,即使存在語言學上的限制,理解能力仍會明顯下降;然而,將英語嵌入其他語言中卻常能提升理解效果。雖然提示策略的效果參差不齊,但微調提供了一條更為穩定的途徑來減輕理解能力的下降。
视觉-语言-动作模型(VLAs)因其在推动机器人操作技术发展中的潜力而受到广泛关注。然而,以往的研究方法主要依赖视觉-语言模型(VLMs)的通用理解能力来生成动作信号,往往忽视了视觉观察中蕴含的丰富时间与因果结构。本文提出UniVLA,一种统一且原生的多模态VLA模型,它自回归地将视觉、语言及动作信号建模为离散的符号序列。这一表述方式使得模型能够灵活地学习多模态任务,尤其是从大规模视频数据中学习。通过在后续训练中融入世界建模,UniVLA能够从视频中捕捉因果动态,有效促进向下游策略学习的迁移——特别是针对长期任务。我们的方法在多个广泛使用的仿真基准测试中,包括CALVIN、LIBERO和Simplenv-Bridge,均取得了新的最先进成果,显著超越了先前的方法。例如,在LIBERO基准测试中,UniVLA实现了95.5%的平均成功率,超越了pi0-FAST的85.5%。我们进一步展示了其在现实世界ALOHA操作和自动驾驶中的广泛应用性。
大型語言模型(LLMs)在自動化數據分析任務中展現出潛力,然而開源模型在這些推理密集型的場景中面臨顯著限制。本研究探討了提升開源LLMs數據分析能力的策略。通過策劃一個包含多樣化、現實場景的種子數據集,我們從三個維度評估模型:數據理解、代碼生成和策略規劃。我們的分析揭示了三個關鍵發現:(1)策略規劃的質量是模型性能的主要決定因素;(2)交互設計和任務複雜性顯著影響推理能力;(3)數據質量在實現最佳性能方面比多樣性具有更大的影響。我們利用這些見解開發了一種數據合成方法,顯著提升了開源LLMs的分析推理能力。
自監督學習(SSL)已革新了音頻表徵技術,然而模型往往仍局限於特定領域,專注於語音或非語音任務。本研究提出了一種統一音頻表徵學習方法——通用語音與音頻蒸餾(USAD),該方法將多樣化的音頻類型——語音、聲音及音樂——整合至單一模型中。USAD通過從領域特定的SSL模型中進行高效的層間蒸餾,來訓練學生模型於一個全面的音頻數據集上。USAD在多種基準測試和數據集上展現出競爭力,涵蓋了幀級與實例級語音處理任務、音頻標籤及聲音分類,並在SUPERB和HEAR基準上以單一編碼器達到了接近最前沿的成果。
大型語言模型(LLMs),尤其是慢思維模型,常表現出嚴重的幻覺現象,即在推理過程中因無法準確識別知識邊界而輸出錯誤內容。雖然強化學習(RL)能提升複雜推理能力,但其結果導向的獎勵機制往往缺乏對思維過程的事實監督,進一步加劇了幻覺問題。為解決慢思維模型的高幻覺率,我們提出了知識增強的強化學習方法——KnowRL。KnowRL通過在RL訓練過程中整合基於知識驗證的事實性獎勵,引導模型進行基於事實的慢思維,幫助其識別知識邊界。這種在RL訓練期間針對性的事實輸入,使模型能夠學習並內化基於事實的推理策略。通過直接在推理步驟中獎勵對事實的遵循,KnowRL促成了更為可靠的思維過程。在三個幻覺評估數據集和兩個推理評估數據集上的實驗結果表明,KnowRL有效減少了慢思維模型的幻覺,同時保持了其原有的強大推理能力。我們的代碼可在https://github.com/zjunlp/KnowRL獲取。
本研究探討了預測性維護模型的有效性及智能運維(O&M)系統的優化在提升風力發電效率方面的作用。通過質性研究,我們對五位具有豐富風機操作經驗的風電場工程師和維護經理進行了結構化訪談。採用主題分析法,研究發現,雖然預測性維護模型能有效識別重大故障並減少停機時間,但在檢測較小且漸進性故障方面仍存在困難。研究指出的主要挑戰包括誤報、感測器故障以及新模型與舊風機系統整合的困難。數位孿生、SCADA系統和狀態監測等先進技術已顯著提升了風機維護實踐。然而,這些技術仍需改進,特別是在AI精煉和即時數據整合方面。研究結果強調了持續發展的必要性,以充分優化風機性能並支持可再生能源的更廣泛應用。
推理模型通过生成长链式思维表现出色,但解码由此产生的数千个标记却较为缓慢。标记级推测解码(SD)虽有所助益,但其效益受限,因为随着gamma值的增长,整个gamma标记猜测完全正确的概率呈指数级下降。这意味着为更长的标记草稿分配更多计算资源面临算法上的天花板——使得加速效果有限且与硬件无关。我们通过前瞻推理(Lookahead Reasoning)提升了这一天花板,它利用了第二层,即步骤级的并行性。我们的核心洞察在于,推理模型是逐步生成的,每一步仅需语义正确,无需精确的标记匹配。在前瞻推理中,一个轻量级的草稿模型提出多个未来步骤;目标模型在一次批量处理中扩展每个提议,而验证器则保留语义正确的步骤,同时让目标模型重新生成任何失败的步骤。标记级SD仍在每个推理步骤内运作,因此两层并行性相互叠加。我们展示了前瞻推理在理论上和实证上均提升了SD的峰值加速比。在GSM8K、AIME及其他基准测试中,前瞻推理将SD的加速比从1.4倍提升至2.1倍,同时保持答案质量,并且其加速比随着GPU吞吐量的增加而更好地扩展。我们的代码可在https://github.com/hao-ai-lab/LookaheadReasoning获取。
正交微調(OFT)提供了一種高度參數效率的適應方法,同時防止災難性遺忘,但其高運行時間和內存需求限制了實際部署。我們發現OFT的核心計算瓶頸在於其以權重為中心的實現方式,該方式依賴於具有立方複雜度的昂貴矩陣-矩陣乘法。為克服這一問題,我們提出了OFTv2,這是一種以輸入為中心的重新表述,轉而使用矩陣-向量乘法(即無矩陣計算),將計算成本降低至二次方。我們進一步引入了Cayley-Neumann參數化,這是一種高效的正交參數化方法,通過截斷的Neumann級數來近似Cayley變換中的矩陣求逆。這些修改使得OFTv2在不影響性能的情況下,實現了高達10倍的訓練速度提升和3倍的GPU內存使用降低。此外,我們將OFTv2擴展至支持量化基礎模型的微調,並展示其在訓練穩定性、效率和內存使用方面優於流行的QLoRA。
在大规模城市环境中的视觉与语言导航(VLN)要求具身代理能够在复杂场景中理解语言指令,并在长时间跨度内回忆相关经验。先前的模块化流程虽提供了可解释性,但缺乏统一记忆系统;而端到端的多模态大语言模型(MLLM)代理虽擅长融合视觉与语言信息,却受限于固定的上下文窗口和隐含的空间推理能力。我们提出了Mem4Nav,一种层次化的空间认知长短记忆系统,能够增强任何VLN基础架构。Mem4Nav通过稀疏八叉树实现细粒度体素索引,并结合语义拓扑图表示高层地标连接性,两者均存储于通过可逆Transformer嵌入的可训练记忆令牌中。长期记忆(LTM)在八叉树和图节点层面压缩并保留历史观测,而短期记忆(STM)则以相对坐标缓存近期的多模态输入,用于实时避障和局部规划。每一步中,STM检索大幅精简动态上下文,当需要更深层历史时,LTM令牌无损解码以重建过去的嵌入。在Touchdown和Map2Seq数据集上,针对三种基础架构(模块化、基于提示的LLM的先进VLN、以及采用跨步注意力的MLLM的先进VLN)的评估显示,Mem4Nav在任务完成率上提升了7-13个百分点,显著降低了SPD,并在nDTW上实现了超过10个百分点的改进。消融实验证实了层次化地图和双记忆模块的不可或缺性。我们的代码已通过https://github.com/tsinghua-fib-lab/Mem4Nav开源。