每日精選AI研究論文及翻譯
本报告介绍了Kandinsky 5.0,这是一系列用于高分辨率图像及十秒视频合成的最先进基础模型。该框架包含三大核心模型系列:Kandinsky 5.0 Image Lite——一组拥有60亿参数的高效图像生成模型;Kandinsky 5.0 Video Lite——快速轻量级、具备20亿参数的文本转视频及图像转视频模型;以及Kandinsky 5.0 Video Pro——拥有190亿参数,能够实现卓越视频生成质量的模型。我们全面回顾了多阶段训练流程中的数据管理生命周期,包括收集、处理、筛选与聚类,这一流程涉及广泛的预训练,并融合了如自监督微调(SFT)和基于强化学习(RL)的训练后优化等质量提升技术。此外,我们展示了新颖的架构、训练及推理优化策略,这些策略使Kandinsky 5.0能够在多种任务中实现高速生成并达到业界领先的性能,这一点已通过人类评估得到验证。作为一个大规模、公开可用的生成框架,Kandinsky 5.0充分发挥了其预训练及后续阶段的潜力,适用于广泛的生成应用场景。我们期望,本报告连同我们开源代码及训练检查点的发布,将极大地推动高质量生成模型的研究与发展,提升其在学术界的可及性。
影片模型已成功實現高保真度影片生成與連貫動態效果,其發展軌跡類似語言模型從文本生成邁向文本推理的歷程。這促使我們思考:影片模型能否透過影片生成進行推理?相較於離散的文本語料庫,影片以明確的空間佈局與時間連續性為基礎,成為空間推理的理想載體。本研究探索「以影片為媒介的推理」範式,並提出VR-Bench——一個系統性評估影片模型推理能力的綜合基準。該基準以迷宮解題任務為基礎,內含對空間規劃與多步驟推理的本質需求,共包含五類迷宮型態與多樣視覺風格下生成的7,920個程序化影片。實證分析表明,監督式微調能有效激發影片模型的推理能力。影片模型在推理過程中展現出更強的空間感知能力,其表現超越主流視覺語言模型,並能適應多樣化場景、任務與複雜度。我們進一步發現測試時擴展效應:推理階段採用多樣化採樣可使推理可靠性提升10%-20%。這些發現凸顯了「以影片推理」模式在空間推理任務中獨特的潛力與擴展性。
人工智慧研究代理程式有望透過自動化機器學習模型的設計、實施與訓練來加速科學進程。然而該領域仍處於發展初期,驅動代理程式軌跡成敗的關鍵因素尚未被完全理解。本文探討構思多樣性對代理程式效能的影響。首先,我們分析不同模型與代理框架在MLE-bench(評估AI研究代理的知名基準測試)上的運行軌跡。分析結果顯示,不同模型與代理框架會產生不同程度的構思多樣性,且高效能代理程式往往具有更高的構思多樣性。進一步透過控制實驗調節構思多樣性程度,我們證實提高構思多樣性能有效提升代理程式表現。最後,我們超越MLE-bench標準的獎牌評分機制,透過其他評估指標驗證研究結果,證明本發現在不同代理效能指標下依然成立。
強化學習(RL)為提升視覺語言模型(VLMs)在複雜推理任務上的表現提供了理論框架。然而,現有RL方法通常依賴人工標註標籤或任務專用啟發式規則來定義可驗證的獎勵,這兩種方式均成本高昂且難以擴展。我們提出VisPlay——一種自演進的RL框架,能讓VLMs利用大量未標註圖像數據自主提升推理能力。該框架從單個基礎VLM出發,將模型分配至兩個互動角色:圖像條件提問者負責構建具挑戰性但可回答的視覺問題,而多模態推理者則生成銀標答案。這些角色通過群組相對策略優化(GRPO)進行聯合訓練,該方法融合多樣性與難度獎勵機制,以平衡生成問題的複雜度與銀標答案的品質。VisPlay在Qwen2.5-VL和MiMo-VL兩大模型系列中展現高效擴展性。經八項基準測試(含MM-Vet和MMMU)驗證,該框架在視覺推理、組合泛化及幻覺抑制方面均實現持續改進,為自演進多模態智能開闢可擴展路徑。項目頁面請訪問:https://bruno686.github.io/VisPlay/
當前胸腔X光影像病灶分割模型的適用性受限於目標標籤數量稀少及依賴冗長專業的文本輸入,這為實際應用帶來了障礙。為解決這些限制,我們提出新範式:指令引導病灶分割,旨在透過簡單易用的指令實現多樣化病灶類型的分割。在此範式下,我們利用全自動多模態流程,從胸腔X光影像及其對應報告生成標註,建構首個大規模CXR病灶分割指令-答案資料集MIMIC-ILS。該資料集包含源自19.2萬張影像與9.1萬個獨特分割遮罩的110萬組指令-答案對,涵蓋七種主要病灶類型。為實證其效用,我們提出基於MIMIC-ILS微調的視覺-語言模型ROSALIA,該模型能根據使用者指令實現多病灶分割並提供文字解釋。在我們新提出的任務中,該模型展現出卓越的分割精度與文本生成準確性,彰顯了本流程的有效性,並確立MIMIC-ILS作為像素級CXR病灶定位基礎資源的價值。
一小時以上長影片(如講座、播客、紀錄片)的普及加劇了對高效內容結構化的需求。然而現有方法受限於小規模訓練數據,且註解通常簡短粗糙,難以泛化至長影片中的細膩內容轉換。我們提出首個大規模影片章節化模型ARC-Chapter,其基於百萬級長影片章節數據訓練,具備雙語、時間錨定及層次化章節註解特性。為實現此目標,我們通過結構化流程構建了英漢雙語章節數據集,將語音識別文本、場景文字與視覺描述統一整合為從短標題到長摘要的多層級註解。實驗證明,無論是數據規模還是標註密度提升,均能帶來明顯的性能增益。此外,我們設計了新型評估指標GRACE,融合多對一片段重疊度與語義相似度,更能反映實際章節劃分的靈活性。大量實驗表明,ARC-Chapter以顯著優勢創建新標杆,F1分數較先前最佳方法提升14.0%,SODA分數提升11.3%。該模型還展現出卓越的遷移能力,在YouCook2的密集影片描述等下游任務中刷新了現有最佳性能。
我們推出MHR參數化人體模型,此模型融合了ATLAS架構的骨骼/形狀分離設計理念,並採用源自Momentum函式庫的靈活現代化綁定系統與姿勢校正機制。該模型能實現富有表現力且符合解剖學原理的人動作生成,支援非線性姿勢校正功能,專為增強現實/虛擬實境及圖形處理管線的穩健整合而設計。
我們提出狀態混合(MoS),這是一種創新的多模態擴散模型融合範式,通過靈活的基於狀態的交互實現模態融合。MoS的核心是具備可學習能力的詞元級路由器,能在去噪時間步長和輸入依賴的條件下,建立多模態隱藏狀態間的動態交互,從而精確對齊詞元級特徵與擴散軌跡。該路由器採用稀疏化的top-k隱藏狀態選取機制,並通過ε-greedy策略進行訓練,能以極少的可學習參數和可忽略的計算開銷高效選取上下文特徵。我們在文本到圖像生成(MoS-Image)與編輯(MoS-Editing)任務上驗證了該設計,其成果達到業界最先進水平。僅憑30億至50億參數規模,我們的模型即可媲美甚至超越參數量達4倍以上的同類模型。這些發現確立了MoS作為可擴展多模態擴散模型的靈活且計算高效的範式。
隨著具身智能成為人工智能研究的核心前沿,模擬平台必須超越低階物理互動,進而捕捉以人為中心的複雜社會行為。我們推出FreeAskWorld互動模擬框架,該框架整合大型語言模型實現高階行為規劃與語義接地互動,並融入了意圖理論與社會認知理論的設計理念。本框架支持可擴展的逼真人機模擬,並包含專為多樣化具身任務設計的模組化數據生成管線。為驗證框架效能,我們將經典視覺語言導航任務擴展為互動增強的問路情境,使智能體能主動尋求並解讀導航指引。我們公開發佈大規模基準數據集FreeAskWorld,包含重建環境、六種任務類型、16類核心物體、63,429幀註解樣本及逾17小時互動數據,以支持具身AI系統的訓練與評估。我們在開環與閉環設定下對比測試了VLN模型與人類表現,實驗結果表明:基於FreeAskWorld微調的模型在語義理解與互動能力上均超越原始版本。這些發現驗證了社會情境化模擬框架能有效推動具身AI系統實現更高階的規劃能力與更自然的人機互動。尤為重要的是,本研究揭示了互動本身可作為獨立的資訊模態發揮作用。
密集特徵匹配旨在估算三維場景中兩張影像之間的所有對應關係,近期因其高精度與強健性已成為業界黃金標準。然而,現有密集匹配器在許多困難的現實場景中仍會失效或表現不佳,且高精度模型往往速度緩慢,限制了其實用性。本文透過一系列系統性改進多面向攻克這些弱點,共同構建出顯著更優的模型。我們特別設計了新穎的匹配架構與損失函數,結合精心策劃的多樣化訓練資料分佈,使模型能解決諸多複雜匹配任務。此外,我們透過解耦的兩階段「匹配-優化」流程加速訓練,同時利用定制化CUDA核心大幅降低優化階段的記憶體消耗。最後,我們整合近期DINOv3基礎模型與多項創新洞見,提升模型的強健性與無偏性。在大量實驗中驗證,最終的新型匹配器創下全新標竿,其準確度顯著超越前人成果。程式碼公開於:https://github.com/Parskatt/romav2
近期音樂生成式AI雖在保真度與風格多樣性方面取得顯著進展,但由於所採用的特定損失函數,這些系統往往難以契合人類細膩的偏好。本文主張將偏好對齊技術系統化應用於音樂生成領域,以彌合計算優化與人類音樂審美之間的根本差距。借鑒包括MusicRL大規模偏好學習、DiffRhythm+中基於擴散模型的偏好優化等多偏好對齊框架,以及Text2midi-InferAlign等推論時優化技術在內的最新突破,我們探討這些技術如何應對音樂特有的挑戰:時序連貫性、和聲一致性與主觀質量評估。我們指出關鍵研究挑戰包括長篇作曲的可擴展性、偏好建模的可靠性等。展望未來,我們預見偏好對齊的音樂生成將為互動式作曲工具與個性化音樂服務帶來變革性應用。本研究呼籲持續開展跨領域合作,結合機器學習與音樂理論的進展,創建真正服務於人類創作與體驗需求的音樂AI系統。
我们推出医学分割基础模型Medal S,该模型在端到端可训练框架内支持原生分辨率空间提示与文本提示。与缺乏空间感知的纯文本方法不同,Medal S实现了三维体积提示与文本嵌入的通道级对齐,有效缓解因分辨率失配导致的精度损失。通过保留完整三维上下文信息,该模型能并行处理多个原生分辨率掩码,显著提升多类别分割性能。轻量化三维卷积模块在双提示类型引导下实现精确体素空间优化,支持BiomedSegFM数据集中CT、MRI、PET、超声及显微镜影像等模态的243个类别分割。Medal S提供两种提示模式:纯文本模式(以模型预测结果作为空间提示进行自主优化)和混合模式(结合人工标注实现灵活交互)。在24类别分割任务中,并行空间提示相较序列式提示将推理时间缩短90%以上。我们提出动态重采样技术解决目标-图像块比例失衡问题,扩展了SAT与nnU-Net的数据增强能力。此外,通过优化文本预处理、两阶段推理策略及后处理技术,显著提升了内存效率、精度与推理速度。在验证集五模态平均指标中,Medal S以DSC 75.44(对比69.83)、NSD 77.34(对比71.06)、F1 38.24(对比24.88)和DSC TP 65.46(对比46.97)全面超越SAT。该模型通过协调空间精度与语义文本指导,在多类别医学分割任务中展现出卓越的效能与准确性。Medal S代码已开源:https://github.com/yinghemedical/Medal-S。