每日精選AI研究論文及翻譯
我們提出BlenderFusion,這是一個生成式視覺合成框架,通過重組物體、攝像機和背景來合成新場景。它遵循分層-編輯-合成的流程:(i)將視覺輸入分割並轉換為可編輯的三維實體(分層),(ii)在Blender中進行基於三維的編輯(編輯),(iii)使用生成式合成器將它們融合成一個連貫的場景(合成)。我們的生成式合成器擴展了預訓練的擴散模型,以並行處理原始(源)和編輯後(目標)場景。它通過兩種關鍵訓練策略在視頻幀上進行微調:(i)源遮罩,實現如背景替換等靈活修改;(ii)模擬物體抖動,促進對物體和攝像機的解耦控制。BlenderFusion在複雜的組合場景編輯任務中顯著優於先前的方法。
本文提出了LLaVA-Scissor,一種針對視頻多模態大語言模型的無訓練令牌壓縮策略。以往的方法主要基於注意力分數來壓縮令牌,但未能有效捕捉所有語義區域,且常導致令牌冗餘。與此不同,我們提出利用語義連通組件(Semantic Connected Components, SCC)方法,將令牌分配至令牌集中的不同語義區域,確保全面的語義覆蓋。其結果是一種兩步的時空令牌壓縮策略,該策略在空間和時間域中均利用SCC。此策略能通過用一組不重疊的語義令牌來表示整個視頻,從而有效壓縮令牌。我們在包括視頻問答、長視頻理解及綜合多選題基準在內的多樣化視頻理解基準上,對LLaVA-Scissor的令牌壓縮能力進行了廣泛評估。實驗結果顯示,所提出的LLaVA-Scissor在多種視頻理解基準上優於其他令牌壓縮方法,特別是在低令牌保留率下表現尤為突出。項目頁面:https://github.com/HumanMLLM/LLaVA-Scissor。
在文本到圖像生成中實現對主體身份和語義屬性(姿態、風格、照明)的精細控制,尤其是針對多個主體時,往往會削弱擴散變換器(DiTs)的可編輯性和連貫性。許多方法會引入偽影或遭遇屬性糾纏的問題。為克服這些挑戰,我們提出了一種新穎的多主體控制生成模型XVerse。通過將參考圖像轉化為特定於令牌的文本流調製偏移量,XVerse能夠在不破壞圖像潛在特徵或特徵的情況下,對特定主體進行精確且獨立的控制。因此,XVerse提供了高保真、可編輯的多主體圖像合成,並對個體主體特徵和語義屬性具有強大的控制能力。這一進展顯著提升了個性化和複雜場景生成的能力。
電影攝影,作為電影的基本視覺語言,對於傳達敘事、情感和美學品質至關重要。儘管近期的視覺-語言模型(VLMs)展現出強大的通用視覺理解能力,但其在理解單個鏡頭中蘊含的細膩電影語法方面的熟練程度仍大多未被探索,且缺乏堅實的評估。這一關鍵缺口既限制了細粒度視覺理解,也制約了AI輔助視頻生成的精確性。為此,我們推出了ShotBench,一個專為電影語言理解設計的綜合基準測試。它包含了超過3.5千個由專家標註的圖像與視頻片段問答對,這些數據精選自200多部廣受好評(主要為奧斯卡提名)的電影,涵蓋了八個關鍵的電影攝影維度。我們對24個領先的VLMs在ShotBench上的評估揭示了它們的顯著局限性:即便是表現最佳的模型,其平均準確率也不足60%,尤其是在處理細微視覺線索和複雜空間推理時表現欠佳。為推動該領域的進步,我們構建了ShotQA,一個包含約7萬個電影問答對的大規模多模態數據集。利用ShotQA,我們通過監督微調和群組相對策略優化開發了ShotVL。ShotVL在ShotBench上顯著超越了所有現有的開源和專有模型,創立了新的性能標杆。我們開源了我們的模型、數據和代碼,以促進這一AI驅動的電影理解與生成關鍵領域的快速發展。
內在世界模型(World Models, WMs)使智能體能夠理解世界狀態並預測其轉變,作為高級審慎推理的基礎。近期的大型視覺-語言模型(Vision-Language Models, VLMs),如OpenAI的o3、GPT-4o和Gemini,展現了作為通用WMs的潛力。儘管最新研究已評估並揭示了這些模型在特定能力(如視覺理解)上的局限性,但對VLMs基本WM能力的系統性評估仍屬空白。借鑒比較心理學與認知科學,我們提出了一個兩階段框架,分別評估感知(視覺、空間、時間、數量與運動)與預測(機制模擬、傳遞推理、組合推理),以提供對VLMs作為WMs的原子級評估。在此框架指導下,我們引入了WM-ABench,這是一個大規模基準測試,涵蓋了6個多樣化模擬環境中的23個細粒度評估維度,並通過控制反事實模擬進行。通過對15個最新商業及開源VLMs的660次實驗,我們發現這些模型在基本世界建模能力上存在顯著局限。例如,在區分運動軌跡時,幾乎所有模型的準確率都接近隨機水平。此外,它們缺乏解耦理解——例如,某些模型傾向於認為藍色物體比綠色物體移動得更快。更豐富的結果與分析揭示了VLMs與人類水平世界建模之間的顯著差距。
密集预测任务在计算机视觉领域占据着重要地位,其目标是为输入图像学习像素级的标注标签。尽管该领域已取得诸多进展,现有方法主要集中于理想化条件下的研究,对现实场景的泛化能力有限,且面临真实世界数据稀缺的挑战。为系统性地研究这一问题,我们首先引入了DenseWorld,这是一个涵盖25种密集预测任务的基准测试集,这些任务对应着紧迫的现实应用需求,并实现了跨任务的统一评估。随后,我们提出了DenseDiT,它最大限度地利用生成模型的视觉先验,通过统一策略执行多样化的现实世界密集预测任务。DenseDiT结合了参数重用机制和两个轻量级分支,这些分支自适应地整合多尺度上下文信息,仅需增加不到0.1%的参数。在DenseWorld上的评估显示,现有通用及专用基线模型性能显著下降,凸显了它们在现实世界泛化能力上的局限。相比之下,DenseDiT仅使用基线模型不到0.01%的训练数据便取得了优异结果,充分证明了其在现实世界部署中的实用价值。我们的数据、检查点及代码可在https://xcltql666.github.io/DenseDiTProj获取。
機器人學在硬件方面取得了顯著進展——從DARPA的城市與機器人挑戰賽到首屆人形機器人踢拳錦標賽——然而,商業自動化仍落後於機器學習的發展。一個主要瓶頸在於軟件:當前的機器人技術棧要求陡峭的學習曲線、低層次的C/C++專業知識、分散的工具集以及複雜的硬件集成,這與推動現代人工智能發展的以Python為中心、文檔完善的生態系統形成鮮明對比。我們推出了ARK,這是一個開源的、以Python為先的機器人框架,旨在彌合這一差距。ARK提供了一個Gym風格的環境接口,允許用戶收集數據、進行預處理,並使用最先進的模仿學習算法(如ACT、擴散策略)訓練策略,同時在高保真模擬與物理機器人之間無縫切換。輕量級的客戶端-服務器架構提供了網絡化的發布-訂閱通信,而可選的C/C++綁定確保了在需要時的實時性能。ARK附帶了可重用的模塊,用於控制、SLAM、運動規劃、系統識別和可視化,並具有原生ROS互操作性。全面的文檔和案例研究——從操作到移動導航——展示了快速原型設計、輕鬆的硬件更換以及與主流機器學習工作流程相媲美的端到端管道。通過在一個共同的Python框架下統一機器人學與人工智能實踐,ARK降低了入門門檻,並加速了自主機器人的研究與商業部署。
在大型語言模型中,專家混合模型(Mixture of Experts, MoE)的興起,以較低的執行成本代價,換取了更大的模型參數規模和學習能力,因為每個輸入的token僅激活一小部分參數。然而,普遍觀察到某些專家被激活的頻率遠高於其他專家,導致在並行運行於不同設備時系統效率低下。因此,我們引入了分組專家混合模型(Mixture of Grouped Experts, MoGE),它在專家選擇過程中進行分組,並在根本上比MoE更好地平衡了專家的工作負載。它限制每個預定義的專家組內,token激活的專家數量相等。當模型執行分佈在多個設備上時,這種架構設計確保了跨設備的計算負載平衡,顯著提升了吞吐量,特別是在推理階段。此外,我們在昇騰NPU上構建了基於MoGE的稀疏模型——盤古Pro MoE,總參數達720億,每個token激活160億參數。通過廣泛的系統模擬研究,盤古Pro MoE的配置針對昇騰300I Duo和800I A2進行了優化。我們的實驗表明,MoGE確實能在昇騰NPU上實現更好的專家負載平衡,並在模型訓練和推理中帶來更高效的執行。盤古Pro MoE的推理性能達到每卡1148 tokens/s,並可通過推測加速進一步提升至每卡1528 tokens/s,超越了可比較的32B和72B密集模型。此外,我們在昇騰300I Duo上實現了卓越的模型推理性價比。我們的研究顯示,昇騰NPU能夠通過大規模並行化訓練盤古Pro MoE,使其成為總參數低於100B類別中的領先模型,超越了如GLM-Z1-32B和Qwen3-32B等知名開源模型。
深度生成建模的最新進展為視頻合成開闢了前所未有的機遇。然而,在實際應用中,用戶往往尋求能夠精確且一致地實現其創意編輯意圖的工具。儘管現有方法已取得進展,但確保與用戶意圖的細粒度對齊仍是一個開放且具挑戰性的問題。在本研究中,我們提出了Shape-for-Motion,這是一個新穎的框架,它通過引入3D代理來實現精確且一致的視頻編輯。Shape-for-Motion通過將輸入視頻中的目標對象轉換為時間一致的網格(即3D代理)來實現這一點,允許直接在代理上進行編輯,然後將編輯結果推斷回視頻幀。為了簡化編輯過程,我們設計了一種新穎的雙重傳播策略,允許用戶在單一幀的3D網格上進行編輯,然後這些編輯會自動傳播到其他幀的3D網格上。不同幀的3D網格進一步投影到2D空間,以生成編輯後的幾何和紋理渲染,這些渲染作為解耦視頻擴散模型的輸入,用於生成編輯結果。我們的框架支持跨視頻幀的各種精確且物理一致的操作,包括姿態編輯、旋轉、縮放、平移、紋理修改和對象合成。我們的方法標誌著向高質量、可控視頻編輯工作流程邁出的關鍵一步。大量實驗證明了我們方法的優越性和有效性。項目頁面:https://shapeformotion.github.io/
当前的视觉-语言模型(VLMs)在细粒度空间推理方面存在困难,尤其是在需要多步逻辑和精确空间对齐的情况下。在本研究中,我们提出了SpatialReasoner-R1,一种专为解决这些局限而设计的视觉-语言推理模型。为了构建高质量的空间推理监督数据,我们设计了一种多模型蒙特卡洛树搜索(M3CTS)方法,该方法能生成多样且逻辑一致的长链思维(LongCoT)推理轨迹。此外,我们提出了细粒度直接偏好优化(fDPO),该方法引入了针对特定片段的偏好粒度,用于描述性基础和逻辑推理,并通过空间奖励机制指导,该机制基于视觉一致性、空间基础和逻辑连贯性来评估候选响应。实验结果表明,fDPO在空间质量任务上比标准DPO平均提升了4.1%,在空间数量任务上提升了9.0%。采用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench上创下了新的SoTA,平均准确率比最强基线高出9.8%,同时在通用视觉-语言任务上保持了竞争力。
本研究探討了如何實現跨多圖像的視覺線索鏈式思維(Chain-of-Thought, CoT)推理。一種直接的解決方案是將基於規則的強化學習應用於視覺-語言模型(Vision-Language Models, VLMs)。然而,此類方法通常依賴於人工策劃的問答對,這在處理細粒度視覺細節和跨圖像的複雜邏輯時尤具挑戰性。受自監督視覺表示學習的啟發,我們觀察到圖像中蘊含的固有約束可作為監督信號。基於這一洞察,我們構建了由同一圖像的兩個增強視圖及第三張相似但不同的圖像組成的圖像三元組。在訓練過程中,模型被引導生成推理過程以比較這些圖像(即判斷相同或不同)。隨後,我們利用基於規則的強化學習對模型進行優化。由於圖像間的高度視覺相似性及增強處理的存在,模型必須關注細微的視覺變化並進行邏輯推理才能成功。實驗表明,儘管僅在視覺比較任務上進行訓練,所學得的推理能力能有效泛化至廣泛的問題類型。在不依賴任何人類標註問答對的情況下,我們的方法在多圖像推理基準上取得了顯著提升,並在通用視覺任務中展現出強勁性能。
大型語言模型(LLMs)的快速進步具有協助科學進展的潛力。實現這一目標的關鍵能力在於重現現有工作的能力。為了評估AI代理在活躍研究領域中重現結果的能力,我們引入了自動化LLM速通基準測試,利用研究社群在NanoGPT速通競賽中的貢獻,該競賽旨在以最短時間訓練一個GPT-2模型。這19個速通任務中的每一個都為代理提供了先前記錄的訓練腳本,並可選擇性地搭配三種提示格式之一,範圍從偽代碼到類似論文的新記錄改進描述。這些記錄設計上執行迅速,且速通改進涵蓋了多樣的代碼層面變更,從高層次算法進步到硬體感知的優化。這些特性使得該基準測試在改進LLM訓練的前沿問題上既易於接近又具現實性。我們發現,結合最先進框架的最新推理LLMs在我們的基準測試中難以重新實現已知的創新,即使提供了詳細的提示。因此,我們的基準測試提供了一個簡單、未飽和的衡量標準,用於評估LLMs自動化科學重現的能力,這是自主研究代理必要(但非充分)的技能。
视觉语言模型(VLMs)能否像人类一样,仅凭少数视角便构想出完整场景?人类通过构建空间心理模型,即对未见空间的内在表征,来推理布局、视角及运动。我们新推出的MindCube基准测试,包含3,268张图像上的21,154个问题,揭示了这一关键差距,现有VLMs在此类任务上表现近乎随机。借助MindCube,我们系统评估了VLMs在构建稳健空间心理模型方面的能力,包括位置表征(认知映射)、方向理解(视角采纳)及动态模拟(“假设”运动的心智模拟)。随后,我们探索了三种方法以助VLMs近似空间心理模型,包括未见中间视角的引入、自然语言推理链的应用及认知地图的构建。显著提升来自于一种协同策略——“先绘图后推理”,该策略联合训练模型首先生成认知地图,继而基于此进行推理。通过训练模型在这些内部地图上进行推理,我们将准确率从37.8%提升至60.8%(+23.0%)。引入强化学习后,性能进一步提升至70.7%(+32.9%)。我们的核心洞见在于,此类空间心理模型的支架作用,即主动构建并利用内部结构化空间表征,结合灵活的推理过程,显著增强了对不可观测空间的理解。
多模態情境學習(ICL)在醫學等領域具有顯著潛力,但至今仍未被充分探索。臨床醫生經常面臨多樣化且專業化的任務,這些任務需要從有限的例子中進行適應,例如從少數相關的先前案例中汲取見解,或考慮一組有限的鑑別診斷。儘管多模態大型語言模型(MLLMs)在醫學視覺問答(VQA)方面已顯示出進步,但其從情境中學習多模態任務的能力在很大程度上仍是未知的。我們引入了SMMILE,這是首個由專家驅動的醫學任務多模態ICL基準。十一位醫學專家精心設計了問題,每個問題包括一個多模態查詢和多模態情境示例作為任務演示。SMMILE涵蓋了111個問題(517個問題-圖像-答案三元組),涉及6個醫學專科和13種成像模態。我們進一步引入了SMMILE++,這是一個包含1038個排列問題的增強版本。對15個MLLMs的全面評估表明,大多數模型在醫學任務中的多模態ICL能力表現為中等至較差。在開放式評估中,ICL在SMMILE上僅帶來8%的平均改進,在SMMILE++上為9.4%。我們觀察到對不相關情境示例的敏感性:即使是一個噪聲或不相關的示例,也可能使性能下降高達9.5%。此外,示例排序顯示出近因偏見,即將最相關的示例放在最後可以帶來高達71%的性能提升。我們的研究結果突顯了當前MLLMs在從情境中學習多模態醫學任務時的關鍵限制和偏見。
近期針對上下文學習(ICL)的分析工作,已識別出一系列廣泛的策略,這些策略描述了模型在不同實驗條件下的行為。我們旨在通過探討模型為何首先學習這些各異的策略來統一這些發現。具體而言,我們從觀察出發,當模型被訓練以學習一系列任務的混合體(這在文獻中頗為常見)時,模型為執行ICL所學習的策略,可以被一組貝葉斯預測器所捕捉:一個記憶型預測器,它假設對已見任務集有一個離散先驗;以及一個泛化型預測器,其先驗與底層任務分佈相匹配。採用理性分析這一規範視角,即學習者的行為被解釋為在計算約束下對數據的最優適應,我們發展了一個層次貝葉斯框架,該框架幾乎完美地預測了Transformer在整個訓練過程中的下一個詞預測——無需假設對其權重的訪問。在此框架下,預訓練被視為更新不同策略後驗概率的過程,而推理時的行為則被視為這些策略預測的後驗加權平均。我們的框架借鑒了關於神經網絡學習動態的常見假設,這些假設明確了候選策略在損失與複雜性之間的權衡:除了策略對數據的解釋能力外,模型對實施某一策略的偏好還由其複雜性決定。這有助於解釋眾所周知的ICL現象,同時提供新穎的預測:例如,我們展示了隨著任務多樣性的增加,從泛化過渡到記憶的時間尺度呈現超線性趨勢。總體而言,我們的工作基於策略損失與複雜性之間的權衡,推進了一種對ICL的解釋性和預測性理解。
我们推出Gazal-R1,这是一个拥有320亿参数的语言模型,在医学推理领域实现了最先进的性能,同时为临床决策提供了透明、逐步的解释。基于Qwen3 32B构建,我们的模型展示了通过策略性训练,中等规模的模型能够在专业领域中显著超越更大规模的对手。我们开发了一种新颖的两阶段训练流程:首先,在精心策划的107,033个合成医学推理示例数据集上进行监督微调,教授结构化的临床思维,并通过包括权重分解低秩适应(DoRA)和秩稳定LoRA(rsLoRA)在内的先进参数高效技术增强;其次,使用具有复杂多组件奖励系统的组相对策略优化(GRPO)进行强化学习,以优化准确性、格式遵循和推理质量。Gazal-R1在医学基准测试中表现出色,在MedQA上得分87.1%,在MMLU Pro(医学)上得分81.6%,在PubMedQA上得分79.6%,超越了规模高达12倍的模型。除了其强大的实证结果外,这项工作还深入探讨了在专业领域训练具备推理能力的模型所面临的挑战,包括奖励黑客问题、训练不稳定性以及事实回忆与详细推理之间的根本性张力。我们的方法论为开发高性能、特定领域的语言模型提供了一个可复现的框架,平衡了性能、效率和可解释性。
多數語言模型面臨一個根本性的取捨,即強大的能力需要消耗大量的計算資源。我們通過Jan-nano打破了這一限制,這是一個擁有40億參數的語言模型,它通過極致的專業化重新定義了效率:不再試圖無所不知,而是精通於即時查找任何信息的藝術。Jan-nano基於Qwen3-4B模型,利用我們新穎的多階段RLVR系統進行微調,該系統完全摒棄了對下一詞預測訓練(SFT)的依賴,在集成MCP的情況下,於SimpleQA基準測試中達到了83.2%的成績,且能在消費級硬件上運行。憑藉128K的上下文長度,Jan-nano證明了智能不在於規模,而在於策略。
追求高效且可控的高質量內容生成,仍是人工智慧生成內容(AIGC)領域的核心挑戰。儘管基於擴散蒸餾技術的一步生成器提供了卓越的生成質量與計算效率,但將其適應於新的控制條件——如結構約束、語義指導或外部輸入——則面臨重大挑戰。傳統方法通常需要對基礎模型進行計算成本高昂的修改,並進行後續的擴散蒸餾。本文提出了一種新穎且輕量級的噪聲一致性訓練(NCT)方法,旨在無需訪問原始訓練圖像或重新訓練基礎擴散模型的情況下,直接將新的控制信號整合到預訓練的一步生成器中。NCT通過引入一個適配器模塊,並在生成器的噪聲空間中採用噪聲一致性損失來運作。此損失函數使適應後的模型在不同程度上條件依賴的噪聲間保持生成行為的一致性,從而隱式地引導其遵循新的控制條件。理論上,此訓練目標可理解為最小化適應後生成器與新條件誘導的條件分佈之間的分布距離。NCT具有模塊化、數據高效且易於部署的特點,僅依賴於預訓練的一步生成器與控制信號模型。大量實驗表明,NCT在單次前向傳播中實現了最先進的可控生成,在生成質量與計算效率上均超越了現有的多步及基於蒸餾的方法。代碼已公開於https://github.com/Luo-Yihong/NCT。
我們推出Confucius3-Math,這是一個擁有140億參數的開源大型語言模型,其特點在於:(1)能夠在單個消費級GPU上高效運行;(2)在眾多數學推理任務上達到業界領先水平,超越許多規模顯著更大的模型。特別地,作為我們利用AI提升教育和知識傳播使命的一部分,Confucius3-Math專注於服務中國K-12學生的數學學習及教育工作者。通過大規模強化學習(RL)進行後訓練構建,Confucius3-Math與國家課程標準對接,擅長以低成本解決主流的中國K-12數學問題。在本報告中,我們分享了開發過程中的方法論、遇到的挑戰以及為克服這些挑戰所開發的技術。特別地,我們引入了三項技術創新:定向熵正則化、近期樣本恢復和策略特定難度加權。這些創新包括一種新的熵正則化方法、新穎的數據調度策略,以及改進的群體相對優勢估計器。它們共同作用,顯著穩定了RL訓練,提高了數據效率,並提升了性能。我們的工作展示了在特定領域以低成本構建強大推理模型的可行性。我們在https://github.com/netease-youdao/Confucius3-Math開源了我們的模型和代碼。
在诸多行业中,预测大型系统的指标结果是一个基础性问题,这主要依赖于传统的表格回归方法。然而,这些方法在处理复杂系统数据(如配置文件或系统日志)时往往力不从心,因为在这些场景下,特征工程通常难以实施。我们提出文本到文本回归作为一种通用且可扩展的替代方案。在预测Borg(谷歌大规模计算集群调度系统)资源效率的应用中,一个拥有6000万参数的编码器-解码器模型,从随机初始化开始训练,在整个集群范围内实现了接近完美的0.99(平均0.9)等级相关性,且均方误差比表格方法低100倍。该模型还能轻松适应新任务,仅需500个少样本示例,并能捕捉复杂结果分布的密度。消融研究强调了使用编码器、增加序列长度以及模型内在不确定性量化的重要性。这些发现为构建现实世界结果的通用模拟器铺平了道路。
现代大型语言模型,如LLaMA、Qwen及DeepSeek系列,主要采用预层归一化(Pre-LN)Transformer架构。尽管在预训练过程中表现稳定且能扩展至大规模模型,Pre-LN却面临激活方差随层数呈指数级增长的问题,导致残差路径主导子层输出,限制了深层网络的学习能力。为缓解此问题,我们提出了梯度保持激活缩放(GPAS),这一简便技术可与现有方法结合使用。GPAS通过缩小中间激活值同时保持其梯度不变来实现,既保留了激活中的信息,又避免了梯度缩小带来的梯度消失问题。在从7100万到10亿参数规模不等的多种模型上进行的广泛实验表明,GPAS实现了持续的性能提升。除了增强Pre-LN Transformer外,GPAS在改进如Sandwich-LN和DeepNorm等替代架构方面也展现出潜力,证明了其在多种设置下优化训练动态的通用性和潜力。
光學相干斷層掃描(OCT)等成像技術的崛起,以及深度學習(DL)的進步,使得臨床醫生和研究人員能夠更高效地進行視網膜疾病分期。自監督學習(SSL)作為一種流行的深度學習方法,使模型能夠從大量未標記數據中學習,避免了昂貴的標註成本。SSL促進了基礎模型(FMs)的發展,這些大型模型可應用於多種下游任務。然而,現有的OCT基礎模型僅基於圖像數據訓練,缺乏對圖像全面且穩健的語義理解,這從其在下游任務(尤其是複雜任務)中的表現可見一斑,因此需要進行監督微調(這可能不可行)以更好地適應特定應用和人群。為解決這一問題,我們提出了RetFiner,這是一種自監督學習的視覺-語言精煉方案,旨在改進現有基礎模型的表示,並使其能夠高效且直接地適應特定人群,從而提升下游任務的表現。我們的方法利用了文本數據中豐富的監督信號,設計了多樣化的訓練目標。我們在視網膜基礎模型RETFound、UrFound和VisionFM上測試了RetFiner,結果顯示在七項高度多樣化的OCT分類任務中,線性探測性能均有顯著提升,平均分別比其基線提高了5.8、3.9和2.1個百分點。我們的代碼和模型權重已公開於https://github.com/ronnief1/RetFiner。
在视觉-语言模型中学习数据的层次结构是一项重大挑战。先前的研究尝试通过蕴含学习来解决这一难题。然而,这些方法未能明确地建模蕴含的传递性,而传递性在表示空间内确立了顺序与语义之间的关系。在本研究中,我们提出了径向跨模态嵌入(Radial Cross-Modal Embeddings, RCME)框架,该框架能够显式地建模强制传递性的蕴含关系。我们提出的框架优化了视觉-语言模型内概念的偏序关系。通过利用这一框架,我们开发了一个能够表示生命之树层次结构的层次化视觉-语言基础模型。我们在层次化物种分类和层次化检索任务上的实验表明,相较于现有的最先进模型,我们的模型性能得到了显著提升。我们的代码和模型已在https://vishu26.github.io/RCME/index.html开源。
我們介紹了TAPAS(基於任務的適應與規劃多代理框架),這是一個將大型語言模型(LLMs)與符號規劃相結合的多代理系統,旨在無需手動定義環境模型的情況下解決複雜任務。TAPAS利用專門的基於LLM的代理,通過結構化的工具調用機制協作生成並適應領域模型、初始狀態及目標規格。這種基於工具的交互方式使得下游代理能夠向上游代理請求修改,從而適應新的屬性和約束,而無需手動重新定義領域。結合自然語言計劃翻譯的ReAct(推理+行動)風格執行代理,彌合了動態生成計劃與現實世界機器人能力之間的差距。TAPAS在基準規劃領域及VirtualHome模擬現實環境中展現了卓越的性能。
測試時計算已成為提升大型語言模型(LLMs)性能的一種強大範式,其中生成多個輸出或精煉個別推理鏈能顯著提高答案準確性。然而,現有方法如Best-of-N、多數投票和自我反思通常以統一的方式應用推理於所有輸入,忽略了不同問題可能需要不同深度的推理這一事實。在本研究中,我們提出了分數推理(Fractional Reasoning),這是一個無需訓練且與模型無關的框架,它能在推理時實現對推理強度的連續控制,超越了固定指令提示的限制。我們的方法通過提取與更深層次推理相關的潛在引導向量,並以可調節的縮放因子重新應用它,使模型能夠根據每個輸入的複雜度調整其推理過程。這支持了兩種關鍵的測試時縮放模式:(1) 在基於廣度的策略(如Best-of-N、多數投票)中提升輸出質量,以及(2) 在基於深度的策略(如自我反思)中增強個別推理鏈的正確性。在GSM8K、MATH500和GPQA上的實驗表明,分數推理在多樣化的推理任務和模型中持續提升了性能。