每日精選AI研究論文及翻譯
我們探討了一種通過自我反思與強化學習來提升大型語言模型性能的方法。通過激勵模型在回答錯誤時生成更佳的自我反思,我們證明即使在不適合生成合成數據且僅能獲得二元反饋的情況下,模型解決複雜、可驗證任務的能力也能得到增強。我們的框架分為兩個階段:首先,當模型未能完成給定任務時,它會生成一份自我反思評論,分析其先前的嘗試;其次,模型在自我反思的背景下再次嘗試該任務。若後續嘗試成功,則對自我反思階段生成的詞元進行獎勵。實驗結果顯示,在多種模型架構上均取得了顯著的性能提升,如在數學方程書寫上最高提升了34.7%,在函數調用上提升了18.1%。值得注意的是,經過微調的較小模型(1.5億至70億參數)在相同系列中超越了規模大10倍的模型。因此,我們的新穎範式為開發出在有限外部反饋下能自我提升於挑戰性任務、更為有用且可靠的語言模型開闢了一條令人振奮的道路。
尽管现有的统一模型在视觉语言理解和文本到图像生成方面表现出色,但这些模型在探索图像感知和操作任务方面存在局限,而这些任务正是用户广泛应用的迫切需求。最近,OpenAI发布了其强大的GPT-4o-Image模型,用于全面的图像感知和操作,展现了卓越的表达能力并引起了社区的广泛关注。通过在我们精心设计的实验中观察GPT-4o-Image的表现,我们推断GPT-4o-Image利用了语义编码器提取的特征,而非VAE(变分自编码器),而VAE在许多图像操作模型中被视为核心组件。受此启发,我们提出了一个名为UniWorld的统一生成框架,该框架基于强大的视觉语言模型和对比语义编码器提供的语义特征。结果,我们仅使用BAGEL数据量的1%构建了一个强大的统一模型,在图像编辑基准测试中持续超越BAGEL。UniWorld还保持了竞争力的图像理解和生成能力,在多个图像感知任务中表现出色。我们完全开源了我们的模型,包括模型权重、训练和评估脚本以及数据集。
近期,視覺語言模型(VLMs)的進展已將其能力擴展至互動代理任務,然而現有的基準測試仍局限於單一代理或僅文本的環境。相比之下,現實世界場景通常涉及多個代理在豐富的視覺與語言情境中互動,這對多模態觀察與策略互動提出了挑戰。為彌補這一差距,我們引入了視覺策略基準(VS-Bench),這是一個多模態基準,旨在評估VLMs在多代理環境中的策略推理與決策能力。VS-Bench包含八個基於視覺的環境,涵蓋合作、競爭及混合動機的互動,設計用於評估代理預測他人未來行動並優化長期目標的能力。我們考慮了兩個互補的評估維度,包括基於下一動作預測準確率的離線策略推理評估,以及基於標準化回合回報的線上決策評估。對十四個領先VLMs的廣泛實驗顯示,當前模型與最佳性能之間存在顯著差距,最佳模型的預測準確率為47.8%,標準化回報率為24.3%。我們進一步深入分析了多模態觀察、測試時擴展、社交行為及VLM代理的失敗案例。通過標準化評估並凸顯現有模型的局限,我們期望VS-Bench能成為未來策略多模態代理研究的基石。代碼與數據可於https://vs-bench.github.io獲取。
通過可驗證獎勵的強化學習(RLVR)訓練的視覺語言模型(VLMs)在有效擴展測試時計算方面取得了顯著進展。在本研究中,我們探討了如何利用合成的RL數據進一步提升RLVR的效果。為此,我們提出了SynthRL——一個可擴展且具備保證的管道,用於在推理導向的RL訓練中自動擴展數據。SynthRL包含三個關鍵階段:(1)選擇具有適當分佈的種子問題,(2)將其增強為更具挑戰性的變體,同時保留原始答案,以及(3)一個保證驗證階段,確保近乎完美的正確性和難度提升。我們的實證實驗展示了SynthRL的可擴展性和有效性。當應用於MMK12數據集時,SynthRL從約8K種子樣本中合成了超過3.3K個額外的可驗證、具挑戰性的問題。使用我們合成數據訓練的模型在五個域外視覺數學推理基準測試中均取得了穩定的增益,相比僅使用種子數據訓練的基線模型有顯著提升。值得注意的是,詳細分析表明,在最具挑戰性的評估樣本上,增益更為顯著,這凸顯了SynthRL在激發更深層次和更複雜推理模式方面的有效性。
構建基於視覺語言模型(VLM)的圖形用戶界面(GUI)代理時,主要挑戰之一在於視覺定位,即根據視覺內容和文本計劃,定位執行操作的適當屏幕區域。現有研究大多將此任務視為基於文本的座標生成問題。然而,這些方法存在多種侷限性:空間語義對齊能力弱、難以處理模糊的監督目標,以及屏幕座標的密集性與視覺變換器等模型提取的粗粒度視覺特徵之間的不匹配。本文提出GUI-Actor,一種基於VLM的無座標GUI定位方法。其核心在於引入一個基於注意力的操作頭,該操作頭學習將專用的<ACTOR>標記與所有相關的視覺補丁標記對齊,使模型能夠在一次前向傳播中提出一個或多個操作區域。與此相應,我們進一步設計了一個定位驗證器,用於評估並從候選操作區域中選擇最合理的執行區域。大量實驗表明,GUI-Actor在多個GUI操作定位基準上超越了先前的最先進方法,並在未見屏幕分辨率和佈局上展現出更好的泛化能力。值得注意的是,在ScreenSpot-Pro基準上,GUI-Actor-7B甚至超越了UI-TARS-72B(38.1分),以Qwen2-VL和Qwen2.5-VL為骨幹分別取得了40.7分和44.6分的成績。此外,通過引入驗證器,我們發現僅微調新引入的操作頭(對於7B模型約1億參數)而保持VLM骨幹凍結,即可達到與先前最先進模型相當的性能,這表明GUI-Actor能夠在不損害其通用能力的前提下,賦予底層VLM有效的定位能力。
视觉-语言模型(VLMs)在多模态理解方面已展现出显著进展,然而其在科学推理能力上的评估仍显不足。当前的多模态基准测试主要针对通用图像理解或文本驱动推理进行评估,缺乏需要将领域特定知识与视觉证据分析相结合的真实科学情境。为填补这一空白,我们提出了CSVQA,一个专门设计用于通过领域基础视觉问答来评估科学推理的诊断性多模态基准。我们的基准包含1,378个精心构建的跨学科STEM领域问答对,每个问题均要求具备领域知识、视觉证据整合及高阶推理能力。与以往的多模态基准相比,CSVQA更加注重现实世界的科学内容与复杂推理。此外,我们提出了一套严格的评估协议,以系统性地检验模型预测是否基于经过筛选的解释而拥有有效的中间推理步骤。我们对15个VLMs在该基准上的全面评估揭示了显著的性能差异,即便是排名最高的专有模型也仅达到49.6%的准确率。这一实证结果凸显了提升VLMs科学推理能力的迫切需求。我们的CSVQA已发布于https://huggingface.co/datasets/Skywork/CSVQA。
空間推理是認知心理學的一個關鍵方面,也是當前視覺-語言模型(VLMs)的主要瓶頸。儘管已有大量研究旨在評估或提升VLMs對基本空間關係的理解,例如區分左右、遠近以及物體計數,這些任務僅代表了空間推理的最基礎層次。在本研究中,我們引入了OmniSpatial,這是一個基於認知心理學的全面且具挑戰性的空間推理基準。OmniSpatial涵蓋了四大類別:動態推理、複雜空間邏輯、空間互動及視角轉換,並細分為50個子類別。通過網絡數據爬取和精細的人工標註,我們構建了超過1,500個問答對。大量實驗表明,無論是開源還是閉源的VLMs,以及現有的推理和空間理解模型,在全面空間理解方面均表現出顯著的局限性。我們進一步分析了失敗案例,並提出了未來研究的潛在方向。
近期,先进的大型推理模型(LRMs)通过扩展的思维链(CoT)推理来解决复杂任务,取得了最先进的性能。尽管取得了成功,我们发现一个关键问题:LRMs解决的大量简单任务,非推理型大语言模型(LLMs)也能以显著更少的标记数完成,这表明复杂的推理并非总是必要。针对这一问题,我们系统分析了LRMs的推理轨迹,并提出了一种方法,利用识别出的范式及LLM-Judge将这些轨迹分类为冗余推理或必要推理。此外,我们引入了OThink-R1方法,该方法在保持逻辑有效性的同时,剪除冗余推理步骤。OThink-R1动态地采用非思考模式(快速思考)处理简单问题,而对于复杂问题则启用深思熟虑(慢速思考)。在数学和问答任务上的实验表明,OThink-R1平均减少了近23%的推理冗余,且不牺牲准确性,为高效推理模型提供了实用指南。代码可在https://github.com/AgenticIR-Lab/OThink-R1获取。
多模態大型語言模型(MLLMs)近年來發展迅速。然而,在金融領域,尚缺乏有效且專業的多模態評估數據集。為推動MLLMs在金融領域的發展,我們推出了FinMME,涵蓋18個金融領域和6種資產類別,包含10種主要圖表類型及21種子類型,共計超過11,000個高質量金融研究樣本。我們通過20名註釋員及精心設計的驗證機制確保數據質量。此外,我們開發了FinScore評估系統,結合幻覺懲罰和多維能力評估,以提供公正的評價。大量實驗結果表明,即便是如GPT-4o這樣的頂尖模型,在FinMME上的表現也不盡如人意,凸顯了其挑戰性。該基準在不同提示下的預測變異保持在1%以下,展現出較現有數據集更高的穩健性和可靠性。我們的數據集及評估協議可於https://huggingface.co/datasets/luojunyu/FinMME和https://github.com/luo-junyu/FinMME獲取。
多模态大语言模型(MLLMs)的显著进展,引发了将其扩展至如腿式机器人等物理实体的日益关注。这通常要求MLLMs不仅掌握多模态理解能力,还需整合视觉空间推理与物理交互能力。然而,现有方法因这些能力本质上的差异而难以统一。本文提出视觉具身大脑(VeBrain),一个面向现实世界感知、推理与控制的统一框架。VeBrain将机器人控制重构为二维视觉空间中的通用文本型MLLM任务,从而统一了不同任务的目标与映射空间。随后,提出一种新颖的机器人适配器,将MLLMs的文本控制信号转换为真实机器人的运动策略。从数据角度,我们进一步引入VeBrain-600k,一个高质量指令数据集,涵盖VeBrain的多种能力。在VeBrain-600k中,我们耗费数百小时收集、整理并标注数据,采用多模态思维链(CoT)将不同能力融合于单一对话中。在13个多模态基准和5个空间智能基准上的广泛实验表明,VeBrain相较于Qwen2.5-VL等现有MLLMs展现出卓越性能。当部署至腿式机器人与机械臂时,VeBrain相比现有方法显示出更强的适应性、灵活性与组合能力。例如,与Qwen2.5-VL相比,VeBrain不仅在MMVet上实现了+5.6%的显著提升,还在腿式机器人任务中平均增益达+50%。
扩散式大语言模型(Diffusion LLMs)作为一种有前景的替代方案,相较于传统的自回归大语言模型,展现出显著的运行时效率提升潜力。然而,现有的扩散模型无法可证明地强制执行用户指定的形式约束,如正则表达式,这使得它们在需要结构化输出的任务(如固定模式的JSON生成)中显得不可靠。与自回归模型逐词生成不同,扩散式大语言模型并行预测一组词元。这种并行性使得传统的约束解码算法——专为顺序词元预测设计——在保持真实输出分布方面效果不佳。针对这一局限,我们提出了DINGO,一种基于动态规划的高效且可证明保持分布的约束解码策略。DINGO能够在严格满足用户指定正则表达式的同时,从模型预测分布中采样出概率最高的输出字符串。在标准的符号数学和JSON生成基准测试中,DINGO相较于无约束推理,实现了高达68个百分点的性能提升。
儘管多模態大型語言模型(MLLMs)取得了進展,但其在細粒度視頻運動理解方面的能力仍然存在顯著限制。這些模型往往缺乏幀間差異分析,傾向於平均或忽略細微的視覺線索。此外,雖然視覺提示在靜態圖像中顯示出潛力,但其在視頻時間複雜性中的應用,特別是對於細粒度運動理解,仍然很大程度上未被探索。我們探討是否能夠釋放內在能力,提升MLLMs的運動感知,並實現針對解耦物體和相機運動線索的獨特視覺特徵。在本研究中,我們引入了MotionSight,這是一種新穎的零樣本方法,開創性地使用物體中心的視覺聚光燈和運動模糊作為視覺提示,有效提升細粒度運動理解,而無需訓練。為了將其轉化為有價值的數據資產,我們策劃了MotionVid-QA,這是首個用於細粒度視頻運動理解的大規模數據集,包含分層註釋,包括SFT和偏好數據,約40K個視頻片段和約87K個問答對。實驗表明,MotionSight在開源性能上達到了最先進水平,並與商業模型具有競爭力。特別是,對於細粒度運動理解,我們提出了一種新穎的零樣本技術和一個大規模、高質量的數據集。所有代碼和註釋將公開提供。
大型视觉语言模型(LVLMs)近期在结合具身推理与机器人控制方面展现出巨大潜力,推动了机器人技术的进步。一种常见的方法是通过监督微调(SFT)来训练与机器人控制相关的具身推理任务。然而,SFT数据集往往基于启发式构建,并未明确针对提升机器人控制进行优化。此外,SFT常导致灾难性遗忘和泛化性能下降等问题。为应对这些局限,我们引入了Robot-R1,一个利用强化学习专门增强机器人控制具身推理的新框架。Robot-R1学习预测完成任务所需的下一关键点状态,这一预测基于当前场景图像及从专家演示中提取的环境元数据。受DeepSeek-R1学习方法的启发,Robot-R1采样基于推理的响应,并强化那些能带来更准确预测的响应。实验表明,采用Robot-R1训练的模型在具身推理任务上优于SFT方法。尽管仅有7B参数,Robot-R1在涉及低级动作控制的推理任务上,如空间和基础运动推理,甚至超越了GPT-4o。
儘管擴散變換器(DiTs)在視頻生成領域取得了突破性進展,但這項長序列生成任務仍受到注意力機制二次方複雜度的限制,導致顯著的推理延遲。通過對視頻擴散變換器(vDiT)中注意力圖的詳細分析,我們識別出三種重複出現的稀疏模式:對角線、多對角線和垂直條紋結構。甚至3-6%的注意力頭可以被跳過。關鍵在於,這些模式展現出強烈的層深與頭位相關性,但對輸入內容的依賴性有限。基於這些發現,我們提出了Sparse-vDiT,這是一個針對vDiT的稀疏加速框架,包含:1)模式優化的稀疏核,用計算效率高的實現替換密集注意力,針對每種識別的稀疏模式。2)一種離線稀疏擴散搜索算法,通過硬件感知的成本模型,為每層和每個頭選擇最佳的稀疏計算策略。確定最佳配置後,我們將同一層中共享相同注意力策略的頭進行融合,提升推理效率。集成到最先進的vDiT模型(CogVideoX1.5、HunyuanVideo和Wan2.1)中,Sparse-vDiT分別實現了2.09倍、2.38倍和1.67倍的理論FLOP減少,以及實際推理速度提升1.76倍、1.85倍和1.58倍,同時保持高視覺保真度,PSNR值分別達到24.13、27.09和22.59。我們的工作表明,vDiT中的潛在結構稀疏性可以被系統性地利用於長視頻合成。
我們提出了CURE,這是一種新穎的強化學習框架,其專屬的獎勵設計基於編碼與單元測試生成能力的交互結果進行共同演化,無需任何真實代碼作為監督。這種方法實現了靈活且可擴展的訓練,並允許單元測試器直接從編碼者的錯誤中學習。我們衍生的ReasonFlux-Coder-7B和14B模型在Qwen2.5-Instruct模型上優化後,代碼生成準確率提升了5.3%,Best-of-N準確率提升了9.0%,超越了同規模的Qwen-Coder、DeepSeek-Coder和Seed-Coder。這些模型自然地延伸至下游任務,如測試時擴展和代理編碼,相比基礎模型實現了8.1%的改進。對於長鏈思維模型,我們的ReasonFlux-Coder-4B在單元測試生成中持續超越Qwen3-4B,同時達到了64.8%的推理效率。值得注意的是,我們還發現該模型可作為基礎模型強化學習的有效獎勵模型。項目詳情請見:https://github.com/Gen-Verse/CURE。
我們提出了主題保真度優化(Subject Fidelity Optimization, SFO),這是一種新穎的比較學習框架,專注於零樣本主題驅動生成,旨在提升主題保真度。與僅依賴正樣本目標並沿用預訓練階段擴散損失的監督微調方法不同,SFO引入了合成負樣本目標,並通過成對比較明確引導模型偏好正樣本。針對負樣本,我們提出了條件退化負採樣(Condition-Degradation Negative Sampling, CDNS),該方法無需昂貴的人工標註,即可自動生成具有區分性和信息量的負樣本,通過有意退化視覺和文本線索來實現。此外,我們重新加權了擴散時間步,將微調重點放在主題細節顯現的中間步驟上。大量實驗表明,在主題驅動生成基準測試中,結合CDNS的SFO在主題保真度和文本對齊方面均顯著優於基線方法。項目頁面:https://subjectfidelityoptimization.github.io/
近期,AI生成内容(AIGC)的進展顯著加速了動畫製作。要製作引人入勝的動畫,關鍵在於生成具有敘事腳本和角色參考的連貫多鏡頭視頻片段。然而,現有的公開數據集主要集中於現實世界場景的全局描述,缺乏用於一致角色指導的參考圖像。為彌補這一差距,我們推出了AnimeShooter,這是一個參考引導的多鏡頭動畫數據集。AnimeShooter通過自動化流程,具備全面的層次化註釋和跨鏡頭的強視覺一致性。故事級註釋提供了敘事概覽,包括故事情節、關鍵場景和帶有參考圖像的主要角色簡介,而鏡頭級註釋則將故事分解為連續的鏡頭,每個鏡頭都標註了場景、角色以及敘事性和描述性的視覺字幕。此外,專用子集AnimeShooter-audio為每個鏡頭提供了同步音軌,以及音頻描述和聲音來源。為展示AnimeShooter的有效性並為參考引導的多鏡頭視頻生成任務建立基準,我們引入了AnimeShooterGen,它利用多模態大語言模型(MLLMs)和視頻擴散模型。參考圖像和先前生成的鏡頭首先由MLLM處理,生成既考慮參考又考慮上下文的表示,然後將其作為擴散模型的條件來解碼後續鏡頭。實驗結果表明,基於AnimeShooter訓練的模型在跨鏡頭視覺一致性和遵循參考視覺指導方面表現優異,這凸顯了我們數據集在生成連貫動畫視頻方面的價值。
我們引入了原生分辨率圖像合成,這是一種新穎的生成建模範式,能夠在任意分辨率和寬高比下合成圖像。該方法通過原生處理可變長度的視覺標記,克服了傳統固定分辨率、方形圖像方法的限制,這是傳統技術面臨的核心挑戰。為此,我們提出了原生分辨率擴散變換器(NiT),這是一種在其去噪過程中顯式建模不同分辨率和寬高比的架構。擺脫固定格式的束縛,NiT從涵蓋廣泛分辨率和寬高比的圖像中學習內在的視覺分佈。值得注意的是,單一的NiT模型同時在ImageNet-256x256和512x512基準上達到了最先進的性能。令人驚訝的是,類似於高級大型語言模型中觀察到的強大零樣本能力,僅在ImageNet上訓練的NiT展示了出色的零樣本泛化性能。它成功地在以前未見過的高分辨率(例如1536 x 1536)和多樣化的寬高比(例如16:9、3:1、4:3)下生成高保真圖像,如圖1所示。這些發現表明,原生分辨率建模作為視覺生成建模與高級LLM方法之間的橋樑,具有顯著的潛力。
長視頻生成因其在娛樂和模擬等領域的廣泛應用而日益受到關注。儘管技術有所進步,合成時間上連貫且視覺上吸引人的長序列仍然是一個巨大的挑戰。傳統方法通常通過順序生成並拼接短片段,或生成關鍵幀然後以分層方式插值中間幀來合成長視頻。然而,這兩種方法仍面臨重大挑戰,導致時間重複或過渡不自然等問題。本文重新審視了分層長視頻生成流程,並引入了LumosFlow框架,該框架明確引入了運動指導。具體而言,我們首先使用大運動文本到視頻擴散模型(LMTV-DM)生成具有較大運動間隔的關鍵幀,從而確保生成長視頻的內容多樣性。考慮到在關鍵幀之間插值上下文過渡的複雜性,我們進一步將中間幀插值分解為運動生成和事後精煉。對於每對關鍵幀,潛在光流擴散模型(LOF-DM)合成複雜且大運動的光流,而MotionControlNet隨後精煉扭曲結果以提高質量並指導中間幀生成。與傳統的視頻幀插值相比,我們實現了15倍的插值,確保了相鄰幀之間合理且連續的運動。實驗表明,我們的方法能夠生成具有一致運動和外觀的長視頻。代碼和模型將在接受後公開。我們的項目頁面:https://jiahaochen1.github.io/LumosFlow/
受大型語言模型(LLMs)的上下文學習機制啟發,一種基於可視化提示的通用圖像編輯新範式正在興起。現有的單一參考方法通常專注於風格或外觀調整,難以處理非剛性變換。為解決這些限制,我們提出利用源-目標圖像對來提取並將內容感知的編輯意圖轉移到新的查詢圖像上。為此,我們引入了RelationAdapter,這是一個輕量級模塊,使基於擴散變換器(DiT)的模型能夠有效地從少量示例中捕捉並應用視覺變換。我們還引入了Relation252K,這是一個包含218種多樣化編輯任務的綜合數據集,用於評估模型在視覺提示驅動場景中的泛化能力和適應性。在Relation252K上的實驗表明,RelationAdapter顯著提升了模型理解和轉移編輯意圖的能力,從而在生成質量和整體編輯性能上取得了顯著提升。
擴散模型在視頻合成領域取得了顯著成果,但其依賴於迭代去噪步驟,導致計算開銷巨大。一致性模型在加速擴散模型方面取得了重要進展。然而,直接將其應用於視頻擴散模型往往會導致時間一致性和外觀細節的嚴重退化。本文通過分析一致性模型的訓練動態,發現了蒸餾過程中一個關鍵的學習動態衝突:不同時間步的優化梯度和損失貢獻存在顯著差異。這一差異阻礙了蒸餾後的學生模型達到最佳狀態,從而影響了時間一致性並降低了外觀細節。為解決這一問題,我們提出了一種參數高效的雙專家一致性模型(DCM),其中語義專家專注於學習語義佈局和運動,而細節專家則專注於精細細節的優化。此外,我們引入了時間一致性損失來提升語義專家的運動一致性,並應用生成對抗網絡和特徵匹配損失來增強細節專家的合成質量。我們的方法在顯著減少採樣步驟的情況下實現了最先進的視覺質量,證明了專家分工在視頻擴散模型蒸餾中的有效性。我們的代碼和模型可在https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}獲取。
高品質的數據集是訓練和評估機器學習模型的基礎,然而其創建——尤其是包含精確人工標註的數據集——仍然是一項重大挑戰。許多數據集論文提交缺乏原創性、多樣性或嚴格的質量控制,這些不足在同行評審過程中往往被忽視。提交的論文也經常省略關於數據集構建和屬性的關鍵細節。雖然現有工具如數據表旨在促進透明度,但它們主要是描述性的,並未提供標準化、可量化的數據質量評估方法。同樣,會議中的元數據要求雖促進了責任制,但執行並不一致。為解決這些限制,本立場文件主張將系統化、基於評分標準的評估指標整合到數據集審查過程中——尤其是在提交量持續增長的情況下。我們還探索了可擴展、成本效益高的合成數據生成方法,包括專用工具和LLM作為評判者的方法,以支持更高效的評估。作為行動號召,我們引入了DataRubrics,這是一個用於評估人工和模型生成數據集質量的結構化框架。利用基於LLM評估的最新進展,DataRubrics提供了一個可重現、可擴展且可操作的數據集質量評估解決方案,使作者和評審者都能在數據中心研究中堅持更高的標準。我們還發布了代碼,以支持基於LLM評估的可重現性,代碼可在https://github.com/datarubrics/datarubrics獲取。
文本到視頻擴散模型在建模時間相關方面,如運動、物理和動態交互,存在顯著的局限性。現有方法通過重新訓練模型或引入外部條件信號來強制時間一致性,以應對這一限制。在本研究中,我們探討是否能夠直接從預訓練模型的預測中提取有意義的時間表示,而無需任何額外的訓練或輔助輸入。我們提出了FlowMo,這是一種新穎的無需訓練的引導方法,它僅利用模型在每個擴散步驟中的自身預測來增強運動連貫性。FlowMo首先通過測量對應於連續幀的潛在變量之間的距離,推導出外觀去偏的時間表示,這突出了模型預測的隱含時間結構。隨後,它通過測量時間維度上的逐塊方差來估計運動連貫性,並在採樣過程中動態引導模型減少這一方差。跨多個文本到視頻模型的廣泛實驗表明,FlowMo在不犧牲視覺質量或提示對齊的情況下,顯著提升了運動連貫性,為增強預訓練視頻擴散模型的時間保真度提供了一種有效的即插即用解決方案。
基於大型語言模型(LLMs)的代碼生成,常被稱為氛圍編程,在生產環境中日益普及,但卻難以確保代碼質量,尤其是在安全性(例如SQL注入漏洞)和可維護性(例如缺少類型註解)方面。現有方法,如監督微調和基於規則的後處理,依賴於勞動密集型的註釋或脆弱的啟發式方法,限制了其可擴展性和有效性。我們提出了REAL,這是一個強化學習框架,通過程序分析引導的反饋來激勵LLMs生成生產級質量的代碼。具體而言,REAL整合了兩種自動化信號:(1) 檢測安全性或可維護性缺陷的程序分析,以及(2) 確保功能正確性的單元測試。與先前的工作不同,我們的框架是提示無關且無需參考的,從而實現了無需人工干預的可擴展監督。在多個數據集和模型規模上的實驗表明,REAL在功能和代碼質量的同步評估中優於最先進的方法。我們的工作彌合了快速原型設計與生產就緒代碼之間的差距,使LLMs能夠同時提供速度和質量。
近年來,影片擴散技術取得了顯著進展;然而,由於大多數駕駛資料集中事故事件的稀缺性,這些技術在生成逼真的車禍影像方面仍面臨挑戰。提升交通安全需要真實且可控的事故模擬。為解決這一問題,我們提出了Ctrl-Crash,這是一個可控的車禍影片生成模型,它以邊界框、碰撞類型和初始影格等訊號為條件。我們的方法能夠生成反事實情境,其中輸入的微小變化可能導致截然不同的碰撞結果。為了在推理時實現細粒度控制,我們利用無分類器指導,並為每個條件訊號獨立調整尺度。與基於擴散的先前方法相比,Ctrl-Crash在定量影片質量指標(如FVD和JEDi)以及基於人類評估的物理真實性和影片質量方面,均達到了最先進的性能。
大型語言模型正迅速成為能夠使用工具之智能代理的基礎。然而,訓練此類代理具有挑戰性,因為它需要人類創建並註釋多樣化的任務集、工具及評估標準。本文中,我們提出了一種自我挑戰框架,用於訓練代理基於其自身生成的高質量任務。該代理首先扮演挑戰者的角色,在與給定工具互動後生成任務。這些任務以一種新穎的通用問題類別——代碼即任務(Code-as-Task)的形式呈現,由指令、驗證函數以及作為測試的解決方案和失敗案例定義,從而僅篩選出高質量任務。隨後,代理轉換為執行者角色,利用評估反饋作為獎勵,通過強化學習在這些任務上進行訓練。在兩個現有的多輪次工具使用代理基準測試——M3ToolEval和TauBench上的評估顯示,儘管僅使用自我生成的訓練數據,自我挑戰框架在Llama-3.1-8B-Instruct模型上實現了超過兩倍的性能提升。
知識蒸餾(KD)是一種廣泛使用的框架,旨在通過利用教師模型的知識來訓練緊湊、任務特定的模型。然而,其在主動學習(AL)中的應用,即通過迭代樣本選擇來最小化註釋成本,仍未被充分探索。這一差距源於KD通常假設可以獲得足夠的標記數據,而AL則在數據稀缺的場景中運作,這些場景中任務特定的教師模型往往不可用。本文介紹了ActiveKD,這是一個將AL與KD相結合的框架,利用大型視覺語言模型(VLMs)的零樣本和少樣本能力。ActiveKD的一個關鍵方面是VLMs的結構化預測偏差——即它們的預測在概率空間中形成聚類。我們將這種結構視為教師模型的歸納偏差,捕捉對學生學習有益的可泛化輸出模式。為了利用這一偏差,我們提出了概率核心集(PCoreSet),這是一種在概率空間而非特徵空間中最大化覆蓋範圍的選擇策略。PCoreSet策略性地選擇類別多樣的未標記樣本,從而在有限的註釋預算下更有效地傳遞教師知識。在11個數據集上的評估表明,PCoreSet在ActiveKD框架內始終優於現有的選擇方法,推動了AL與KD交叉領域的研究進展。
当前文本到SQL的自校正方法面临两大关键局限:其一,传统的自校正方法依赖于大语言模型(LLMs)的递归自我调用,导致计算开销呈倍数增长;其二,LLMs在处理声明式SQL查询时,难以实现有效的错误检测与校正,因其未能展现底层的推理路径。本研究提出SHARE,一种基于小语言模型(SLMs)的层次化动作校正助手,旨在使LLMs能够执行更精确的错误定位与高效校正。SHARE通过一个顺序管道协调三个专门化的小语言模型,首先将声明式SQL查询转化为揭示底层推理的逐步动作轨迹,随后进行两阶段的细粒度优化。此外,我们提出了一种新颖的层次化自我进化策略,以实现数据高效训练。实验结果表明,SHARE有效增强了自校正能力,并在多种LLMs上展现出鲁棒性。进一步的综合分析显示,即便在低资源训练环境下,SHARE仍能保持强劲性能,这对于受数据隐私限制的文本到SQL应用尤为宝贵。
我们提出了MoCA-Video(视频中的运动感知概念对齐),这是一个无需训练即可弥合图像域语义混合与视频之间差距的框架。给定一个生成的视频和用户提供的参考图像,MoCA-Video将参考图像的语义特征注入视频中的特定对象,同时保留原始的运动和视觉上下文。我们的方法利用对角线去噪调度和类别无关的分割技术,在潜在空间中检测并跟踪对象,并精确控制混合对象的空间位置。为了确保时间一致性,我们引入了基于动量的语义校正和伽马残差噪声稳定化技术,以实现平滑的帧间过渡。我们使用标准的SSIM、图像级LPIPS、时间LPIPS评估MoCA的性能,并引入了一个新的指标CASS(概念对齐偏移评分)来评估源提示与修改后视频帧之间视觉偏移的一致性和有效性。通过自建数据集,MoCA-Video在无需训练或微调的情况下,超越了现有基线,实现了卓越的空间一致性、连贯的运动以及显著更高的CASS评分。MoCA-Video展示了在扩散噪声轨迹中进行结构化操控,可以实现可控、高质量的视频合成。
大型語言模型(LLMs)的生成速度受制於自迴歸解碼,即逐個順序預測令牌。作為替代方案,擴散大型語言模型(dLLMs)理論上允許並行令牌生成,但在實踐中,若要在不顯著犧牲質量的情況下實現與自迴歸模型相當的速度,仍面臨挑戰。因此,我們引入了自適應並行解碼(APD),這是一種新穎的方法,能夠動態調整並行採樣的令牌數量。我們通過定義dLLM邊緣概率與小型輔助自迴歸模型下序列聯合概率之間的乘法混合來實現這一點。這反轉了推測解碼的標準設置,後者的目標是通過從較小模型中草擬來從大型自迴歸驗證器中採樣。我們進一步通過啟用KV緩存和限制掩碼輸入的大小來優化APD。總的來說,我們的方法提出了三個可調參數,以靈活地在吞吐量和質量之間進行權衡。我們展示了APD在下游基準測試中顯著提高了吞吐量,且質量下降最小。
透過遠端操作獲取真實世界的機器人模擬數據,眾所周知既耗時又費力。近年來,動作驅動的生成模型在機器人學習與模擬中獲得了廣泛應用,因為它們消除了安全顧慮並減少了維護工作量。然而,這些方法所採用的動作序列由於其全局上的粗略對齊,往往導致控制精度有限且泛化能力不佳。為解決這些限制,我們提出了ORV,一個以佔用為中心的機器人視頻生成框架,該框架利用4D語義佔用序列作為細粒度表示,為視頻生成提供更精確的語義和幾何指導。通過基於佔用的表示,ORV能夠無縫地將模擬數據轉化為逼真的機器人視頻,同時確保高時間一致性和精確可控性。此外,我們的框架支持同時生成機器人抓取操作的多視角視頻——這對於下游機器人學習任務至關重要。大量實驗結果表明,ORV在多個數據集和子任務上始終優於現有的基線方法。演示、代碼和模型請訪問:https://orangesodahub.github.io/ORV
大型語言模型(LLMs)近期通過強化學習和擴展的思維鏈(CoT)技術取得了顯著進展。然而,在進行高效語言推理——特別是在生成極長輸出時的推理——這一挑戰已引起研究界越來越多的關注。在本研究中,我們提出了一種基於動態比例的訓練流程,該流程不依賴於複雜的數據註釋或多個模型之間的插值。我們持續平衡模型系統1和系統2數據之間的權重,以消除冗餘的推理過程,同時保留模型的推理能力。我們在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上以及一系列難度各異的基準測試中驗證了我們的方法。我們的方法在保持推理準確性的同時,顯著減少了近40%的輸出標記數量。我們的代碼和數據將很快公開。
視覺化在有效傳達概念與資訊方面扮演著關鍵角色。近期在推理與檢索增強生成領域的進展,使得大型語言模型(LLMs)能夠進行深度研究並生成全面報告。儘管已有顯著進步,現有的深度研究框架主要集中於生成純文字內容,對於自動生成交織文字與視覺化的探索仍顯不足。這項新穎任務在設計資訊豐富的視覺化並將其有效整合至文字報告中,面臨了主要挑戰。為應對這些挑戰,我們提出了視覺化形式化描述(Formal Description of Visualization, FDV),這是一種圖表的結構化文字表示法,使LLMs能夠學習並生成多樣且高品質的視覺化。基於此表示法,我們引入了多模態深度研究員(Multimodal DeepResearcher),這是一個將任務分解為四個階段的代理框架:(1) 研究、(2) 範例報告文字化、(3) 規劃,以及(4) 多模態報告生成。針對生成的多模態報告評估,我們開發了多模態報告基準(MultimodalReportBench),其中包含100個多樣主題作為輸入,並配備5項專用指標。跨模型與評估方法的廣泛實驗證明了多模態深度研究員的有效性。值得注意的是,使用相同的Claude 3.7 Sonnet模型,多模態深度研究員相較於基準方法,達成了82%的整體勝率。
阿拉伯文字固有的複雜性,包括其連筆特性、變音符號(tashkeel)以及多樣的排版風格,對光學字符識別(OCR)技術構成了持續的挑戰。我們推出了Qari-OCR,這是一系列基於Qwen2-VL-2B-Instruct的視覺-語言模型,通過在專門合成的數據集上進行迭代微調,逐步優化以適應阿拉伯文。我們的主導模型QARI v0.2,在富含變音符號的文本上,以0.160的詞錯誤率(WER)、0.061的字符錯誤率(CER)以及0.737的BLEU分數,確立了開源領域的新標杆。Qari-OCR展現了對tashkeel、多種字體及文檔佈局的卓越處理能力,同時在低分辨率圖像上亦表現出色。進一步的探索(QARI v0.3)顯示出在結構化文檔理解與手寫文本識別方面的強大潛力。此項工作顯著提升了阿拉伯文OCR的準確性與效率,並公開了所有模型與數據集,以促進更深入的研究。
本文旨在解決大型推理模型(LRMs)在長鏈思維(CoT)推理中面臨的思維不足與過度思維的挑戰,提出了一種新穎的測試時方法——推理控制場(RCF),該方法從樹搜索的角度注入結構化控制信號來引導推理過程。RCF使模型在解決複雜任務時能夠根據給定的控制條件調整推理力度。此外,我們介紹了Control-R-4K數據集,該數據集包含帶有詳細推理過程及相應控制場的挑戰性問題。為了進一步增強推理控制,我們提出了一種條件蒸餾微調(CDF)方法,專門訓練模型——特別是Control-R-32B——以在測試時有效調整推理力度。在AIME2024和MATH500等基準測試上的實驗結果表明,我們的方法在32B規模上達到了最先進的性能,同時實現了可控的長鏈思維推理過程(L-CoT)。總體而言,這項工作為可控的測試時規模化推理引入了一個有效的範式。
隨著公開可用的大型推理模型(LRM)R1的發布,研究人員普遍通過在R1的長鏈思維(CoT)推理上訓練語言模型來訓練新的LRM。雖然先前的研究表明,LRM的能力可以通過直接蒸餾來複製,但對現有模型(如R1)的持續依賴仍然是該領域發展的關鍵限制。作為獨立LRM開發的第一步,本文探討了使用未針對推理時擴展訓練的大型語言模型(LLM)構建長鏈思維數據集的可能性。為此,我們提出了長鏈思維集合(Long CoT Collection),這是一個包含10萬條CoT推理的數據集,使用現有的短鏈思維LLM進行註釋。我們開發了一個管道,將o1的新穎推理策略引入短鏈思維LLM,使它們能夠進行更長時間的思考,並引入對思維預算的可控性,以更好地管理過度思考的問題。我們的大量分析驗證了我們的數據集達到了與R1相當或略低的質量。此外,我們的實驗表明,在我們的數據集上訓練不僅增強了通用推理能力,還為強化學習提供了堅實的基礎——在我們的數據上初始化的模型在RLVR中獲得了2-3倍的增益。
近期在大語言模型(LLMs)領域的突破,通過監督微調(SFT)和強化學習(RL)等技術,顯著提升了模型在數學和邏輯問題上的推理能力,這些問題通常具有可驗證的答案。先前的研究表明,RL能有效內化搜索策略,使模型能夠進行長鏈式思維(CoT)推理,而回溯作為一種學習到的能力自然出現。然而,回溯的具體益處,尤其是它對推理改進的貢獻程度以及其最佳使用範圍,仍未被充分理解。在本研究中,我們系統地探討了SFT和RL在八個推理任務上的動態關係:倒計時、數獨、Arc 1D、幾何、彩色立方體旋轉、列表函數、斑馬謎題和自我參照。我們的研究結果表明,與冷啟動的RL相比,SFT中使用的短CoT序列確實對RL訓練有中等程度的貢獻;然而,當任務變得越來越困難時,這種貢獻會逐漸減弱。基於這一觀察,我們構建了在回溯步驟數量上系統變化的合成數據集,並進行了控制實驗,以隔離正確性(內容)或結構(即回溯頻率)的影響。我們發現:(1)帶有回溯的較長CoT通常能誘導出更好且更穩定的RL訓練;(2)搜索空間更大的更具挑戰性的問題在SFT階段往往需要更高數量的回溯。此外,我們通過對蒸餾數據的實驗證明,RL訓練在很大程度上不受長CoT序列正確性的影響,這表明RL更優先考慮結構模式而非內容正確性。總體而言,我們的研究結果為設計最佳訓練策略以有效擴展LLMs的推理能力提供了實用的見解。
长视频理解因其广泛的时间空间复杂性及在如此延展语境下问答的难度,面临显著挑战。尽管大型语言模型(LLMs)在视频分析能力与长上下文处理方面已展现出显著进步,但在处理信息密集的时长一小时以上的视频时,仍存在局限。为克服这些局限,我们提出了深度视频发现代理(Deep Video Discovery agent),采用基于分段视频片段的代理搜索策略。与以往手动设计固定工作流的视频代理不同,我们的方法强调代理的自主性。通过在多粒度视频数据库上提供一套以搜索为中心的工具,我们的DVD代理利用LLM的高级推理能力,基于当前观察状态进行规划,策略性地选择工具,为行动制定恰当参数,并根据收集到的信息迭代优化其内部推理。我们在多个长视频理解基准上进行了全面评估,展示了整个系统设计的优势。我们的DVD代理在具有挑战性的LVBench数据集上实现了SOTA性能,大幅超越先前工作。此外,还提供了全面的消融研究和深入的工具分析,为针对长视频理解任务定制的智能代理的进一步发展提供了洞见。代码将于稍后发布。
語義檢索對於現代應用至關重要,但在當前研究中仍未被充分探索。現有的數據集僅限於單一語言、單一圖像或單一檢索條件,往往未能充分利用視覺信息的表達能力,這從用文字描述替代圖像時性能保持不變即可見一斑。然而,實際的檢索場景經常涉及交織的多條件查詢與多張圖像。因此,本文引入了MERIT,首個用於交織多條件語義檢索的多語言數據集,包含32萬條查詢和13.5萬件產品,覆蓋5種語言及7個不同的產品類別。在MERIT上進行的大量實驗揭示了現有模型的侷限性:僅關注全局語義信息而忽視查詢中的特定條件元素。為此,我們提出了Coral,一種新穎的微調框架,通過整合嵌入重建來保留細粒度的條件元素,並利用對比學習來提取全面的全局語義。實驗表明,Coral在MERIT上相比傳統方法實現了45.9%的性能提升,並在8個成熟的檢索基準上驗證了其強大的泛化能力。總的來說,我們的研究貢獻——新穎的數據集、對現有方法關鍵侷限性的識別以及創新的微調框架——為未來交織多條件語義檢索的研究奠定了基礎。
對比性語言-圖像預訓練通過為每種模態配備獨立的編碼器,將文本-圖像對的特徵在一個共同的潛在空間中對齊。儘管這種方法在多項零樣本任務中展現了卓越的性能,但它無法原生處理多模態輸入,即無法將圖像和文本編碼為單一特徵向量。為解決這一問題,通常的做法是使用額外的模塊來融合由單模態編碼器提取的特徵。在本研究中,我們提出了FuseLIP,一種用於多模態嵌入的替代架構。借助離散圖像標記器的最新進展,我們建議使用一個單一的變換器模型,該模型操作於擴展的文本和圖像標記詞彙表上。這種早期融合方法使得不同模態在編碼的每一層都能相互作用,從而獲得更豐富的表徵,相比於常見的晚期融合方法。我們收集了新的數據集用於多模態預訓練和評估,設計了針對多模態編碼器模型的挑戰性任務。我們展示了FuseLIP在視覺問答(VQA)和文本引導的圖像轉換檢索等多模態嵌入任務中優於其他方法,同時在單模態任務上與基線模型表現相當。
近期大型語言模型(LLMs)的突破性進展,促成了用於評估其在金融領域表現的新基準的開發。然而,現有的金融基準往往依賴於新聞文章、財報或公告,這使得捕捉金融會議的現實動態變得頗具挑戰。為彌補這一不足,我們提出了一個名為M^3FinMeeting的新穎基準,這是一個專為金融會議理解設計的多語言、多行業、多任務的數據集。首先,M^3FinMeeting支持英語、中文和日語,增強了對多樣化語言環境下金融討論的理解能力。其次,它涵蓋了由全球行業分類標準(GICS)定義的多個行業部門,確保基準覆蓋廣泛的金融活動。最後,M^3FinMeeting包含三項任務:摘要生成、問答對提取及問題回答,促成了更為真實且全面的理解評估。通過對七種流行LLMs的實驗結果顯示,即便是最先進的長上下文模型仍有顯著的提升空間,這證明了M^3FinMeeting作為評估LLMs金融會議理解能力的基準的有效性。
当前针对大型语言模型(LLMs)的强化微调(RFT)范式,由于在均匀数据采样下重复暴露相同查询,存在样本效率低下的问题。尽管先前的研究通过启发式难度指标探索了课程学习,但这些策略因忽视了模型自身生成的内在学习信号而表现出局限性,从而导致次优的训练方案。本文中,我们识别出一种称为角度集中度的模型内在信号,它有效地反映了LLM从特定数据中学习的能力。我们从理论和实证上证明了词元隐藏状态向量的角度分布与所得梯度之间的相关性,揭示了模型对展现更高角度集中度的数据具有学习偏好。受此发现启发,我们提出了GAIN-RL,一个基于梯度驱动的角度信息导航强化学习框架。通过利用模型内在的角度集中度信号,GAIN-RL在每一轮训练中动态选择数据,确保始终产生有影响力的梯度更新,从而显著提升整体训练效率。实证评估显示,GAIN-RL(GRPO)在多样化的数学和编程任务及不同模型规模上实现了超过2.5倍的训练效率加速。此外,GAIN-RL(GRPO)的高效采样带来了数据高效的训练,仅用一半原始数据就达到了比使用全部训练数据的标准GRPO更好的性能。代码已发布于https://github.com/wangqinsi1/GAINRL/tree/main。
文化是一个丰富且动态的领域,其演变跨越了地理与时间的维度。然而,现有关于视觉语言模型(VLMs)在文化理解方面的研究主要强调地理多样性,往往忽视了关键的时间维度。为填补这一空白,我们引入了汉服基准(Hanfu-Bench),这是一个由专家精心策划的多模态数据集。汉服,作为贯穿中国古代各朝代的传统服饰,是反映中国文化深厚时间层面的代表性文化遗产,同时在中国当代社会中仍享有极高的人气。汉服基准包含两大核心任务:文化视觉理解与文化图像转译。前者通过基于单张或多张图像输入的多项选择视觉问答,考察时间文化特征的识别能力;后者则侧重于通过文化元素的传承与现代语境的适应,将传统服饰转化为现代设计。我们的评估显示,在文化视觉理解任务上,封闭式VLMs的表现与非专家相当,但与人类专家相比仍有10%的差距,而开放式VLMs则进一步落后于非专家。在转译任务中,多维度的人类评估表明,表现最佳的模型成功率仅为42%。我们的基准测试提供了一个重要的实验平台,揭示了在时间文化理解与创意适应这一新方向上所面临的重大挑战。
近期,大型多模態模型(LMMs)的進展已實現了高效的視覺-語言推理,然而對視頻內容的理解能力仍受制於次優的幀選擇策略。現有方法通常依賴靜態啟發式規則或外部檢索模塊來向視頻-LLMs提供幀信息,這可能無法提供與查詢相關的信息。在本研究中,我們提出了ReFoCUS(基於強化的上下文理解幀優化),這是一種新穎的幀級策略優化框架,它將優化目標從文本響應轉向視覺輸入選擇。ReFoCUS通過強化學習來學習幀選擇策略,利用源自參考LMM的獎勵信號來反映模型對最能支持時間基礎響應的幀的內在偏好。為了高效探索龐大的組合幀空間,我們採用了一種自迴歸的條件選擇架構,確保時間連貫性同時降低複雜度。我們的方法無需在幀級別進行顯式監督,並在多個視頻問答基準測試中持續提升推理性能,凸顯了將幀選擇與模型內部效用對齊的優勢。
现有的插值方法利用预训练的视频扩散先验,在稀疏采样的关键帧之间生成中间帧。在缺乏三维几何引导的情况下,这些方法难以对复杂、关节化的人体运动产生合理的结果,并且对合成动态的控制有限。本文中,我们提出了PoseFuse3D关键帧插值器(PoseFuse3D-KI),这是一个新颖的框架,它将三维人体引导信号整合到扩散过程中,以实现可控的人体中心关键帧插值(CHKI)。为了为插值提供丰富的空间和结构线索,我们的PoseFuse3D,一个三维信息控制模型,具备一个新颖的SMPL-X编码器,将三维几何和形状转换为二维潜在条件空间,以及一个融合网络,将这些三维线索与二维姿态嵌入相结合。为了评估,我们构建了CHKI-Video,一个标注有二维姿态和三维SMPL-X参数的新数据集。我们展示了PoseFuse3D-KI在CHKI-Video上始终优于最先进的基线,PSNR提高了9%,LPIPS减少了38%。全面的消融实验证明,我们的PoseFuse3D模型提高了插值的保真度。
我們探討是否能在零樣本思維鏈(CoT)過程完成之前預測其成功與否。我們發現,基於大型語言模型(LLM)表徵的探測分類器,在尚未生成任何單一詞元時便已表現出色,這表明推理過程的關鍵信息已存在於初始步驟的表徵中。相比之下,僅依賴生成詞元的強力BERT基線模型表現較差,可能是因為其依賴於淺層的語言線索而非深層的推理動態。令人驚訝的是,使用後續推理步驟並不總能提升分類效果。當額外上下文無助時,早期表徵與後期表徵更為相似,這表明LLM在早期便已編碼關鍵信息。這意味著推理往往可以提前停止而不損失效果。為驗證這一點,我們進行了早期停止實驗,結果顯示,即便截斷CoT推理,其性能仍優於完全不使用CoT,儘管與完整推理相比仍存在差距。然而,旨在縮短CoT鏈的監督學習或強化學習等方法,可借助我們分類器的指導來識別何時早期停止是有效的。我們的研究發現為支持此類方法提供了洞見,有助於在保持CoT優勢的同時優化其效率。
大型推荐模型通过编码或项目生成,已将大型语言模型(LLMs)扩展为强大的推荐系统,而LLM推理领域的最新突破同步激发了推荐系统中推理能力的探索。当前研究通常将LLMs定位为外部推理模块,以产生辅助思维来增强传统推荐流程。然而,这种解耦设计在显著资源成本和次优联合优化方面存在局限。为解决这些问题,我们提出了\name,一个具备内在推理能力的统一大型推荐模型。首先,我们重新构思模型架构,以促进自回归过程中推理与推荐的交替进行。随后,我们提出了RecPO,一个相应的强化学习框架,该框架在单一策略更新中同时优化\name的推理和推荐能力;RecPO引入了一种融合奖励机制,仅利用推荐标签来模拟推理能力,从而消除了对专门推理注释的依赖。在三个数据集上进行的多种基线实验验证了\name的有效性,显示在Hit@5和NDCG@20上分别相对提升了68.67\%和45.21\%。代码可在https://github.com/YRYangang/RRec获取。
基於指令進行圖像編輯以反映非剛性運動、相機視角轉換、物體形變、人體關節活動及複雜互動,是計算機視覺領域中一個具有挑戰性卻尚未充分探索的問題。現有的方法與數據集主要集中於靜態場景或剛性變換,限制了其處理涉及動態運動的豐富編輯的能力。為填補這一空白,我們提出了ByteMorph,這是一個強調非剛性運動的基於指令的圖像編輯綜合框架。ByteMorph包含一個大規模數據集ByteMorph-6M,以及一個基於擴散變換器(DiT)構建的強大基線模型,名為ByteMorpher。ByteMorph-6M包含超過600萬對高分辨率圖像編輯對用於訓練,並精心策劃了一個評估基準ByteMorph-Bench。兩者均涵蓋了多樣環境、人體形象及物體類別中的廣泛非剛性運動類型。該數據集通過運動引導的數據生成、分層合成技術及自動化標註來構建,確保了多樣性、真實性及語義連貫性。我們還對來自學術界和商業領域的最新基於指令的圖像編輯方法進行了全面評估。
開發有效的Transformer可解釋性工具是深度學習研究中的一項關鍵追求。在這一領域,層次相關性傳播(Layer-wise Relevance Propagation, LRP)是最具前景的方法之一,它通過基於預定義規則重新分配激活值,將相關性分數從網絡向後傳播至輸入空間。然而,現有的基於LRP的Transformer可解釋性方法完全忽略了Transformer架構中的一個關鍵組件:位置編碼(Positional Encoding, PE),這導致了守恆屬性的違反,以及與結構和位置特徵相關的重要且獨特的相關性類型的丟失。為解決這一局限,我們將Transformer可解釋性的輸入空間重新表述為一組位置-詞元對。這使我們能夠提出專門的、理論基礎紮實的LRP規則,旨在跨多種位置編碼方法(包括旋轉式、可學習式和絕對式PE)傳播歸因。通過對微調分類器和零樣本基礎模型(如LLaMA 3)的廣泛實驗,我們的方法在視覺和自然語言處理的可解釋性任務中均顯著優於現有最先進技術。我們的代碼已公開提供。
上下文學習(In-context Learning, ICL)是預訓練大型語言模型(LLMs)中一項重要但尚未完全理解的能力。它能夠在不進行微調的情況下,通過少量示例(稱為示範)顯著提升任務表現。儘管在問答任務中效果顯著,ICL在長篇生成任務如摘要撰寫中往往表現不佳。在適當的現實假設下,我們通過實證與理論分析表明,僅憑ICL示範不足以教會LLMs生成任務所需的語言與格式分佈。我們主張對任務分佈進行明確的暴露,並假設通過提示定義這些分佈能提升模型性能。為此,我們提出了LongGuide,它高效地生成兩條並行的指導流,捕捉任務語言與格式特性:(i)指標指導(Metric Guidelines, MGs),指導模型優化自我評估的指標;(ii)輸出約束指導(Output Constraint Guidelines, OCGs),在詞彙與句子層面約束生成。LongGuide自動選擇最佳的指導組合,在零樣本與少樣本設置下,將開源與閉源LLMs的性能提升超過5%。我們證明,LongGuide具有通用性,可由弱模型學習以增強強模型,並能與自動提示優化器協同整合。