每日精選AI研究論文及翻譯
大型語言模型對高品質資料的快速增長需求,正急遽提升對可擴展、可靠且語義豐富的資料準備管線的需求。然而,當前實踐仍以臨時腳本和鬆散定義的工作流程為主,這些方法缺乏原則性抽象、阻礙可重現性,且對模型迴圈內資料生成的支援有限。為解決這些挑戰,我們提出DataFlow——一個統一且可擴展的LLM驅動資料準備框架。DataFlow採用系統級抽象設計,能實現模組化、可複用且可組合的資料轉換,並提供PyTorch風格的管線建構API,用於構建可調試與可優化的資料流。該框架包含近200個可複用運算元及六個跨領域通用管線,涵蓋文本、數學推理、程式碼、Text-to-SQL、代理式RAG與大規模知識擷取。為進一步提升易用性,我們引入DataFlow-Agent,透過運算元合成、管線規劃與迭代驗證,自動將自然語言規格轉譯為可執行管線。在六個代表性應用場景中,DataFlow持續提升下游LLM效能:我們的數學、程式碼與文本管線均優於人工精選資料集與專業化合成基準,在Text-to-SQL任務上較SynSQL提升達3%的執行準確率,於程式碼基準測試平均提升7%,並在MATH、GSM8K和AIME上獲得1-3分增益。此外,由DataFlow產生的統一萬樣本資料集,能使基礎模型勝過使用百萬級Infinity-Instruct資料訓練的對照模型。這些結果表明,DataFlow為可靠、可重現且可擴展的LLM資料準備提供了實用高效底層架構,並為未來以資料為核心的AI發展奠定系統級基礎。
跨模態的深度表徵本質上相互交織。本文系統性分析了各類語義編碼器與像素編碼器的頻譜特性。有趣的是,我們的研究揭示了一個極具啟發性卻鮮少被探索的對應關係:編碼器的特徵頻譜與其功能角色存在內在聯繫——語義編碼器主要捕捉編碼抽象意義的低頻分量,而像素編碼器則額外保留傳遞細粒度細節的高頻信息。這一啟發性發現提供了統一視角,將編碼器行為與其底層頻譜結構相聯繫。我們將其定義為「稜鏡假說」:每種數據模態均可視為自然世界在共享特徵頻譜上的投影,正如光通過稜鏡折射的現象。基於此洞見,我們提出統一自編碼模型(UAE),通過創新的頻帶調製器協調語義結構與像素細節,實現二者的無縫共存。在ImageNet和MS-COCO基準上的大量實驗表明,UAE能以前沿性能將語義抽象與像素級保真度有效統一於單一潛在空間。
近期,情境生成範式在指令式圖像編輯領域展現出強大的數據效率與合成品質。然而,將此種情境學習應用於基於指令的影片編輯並非易事。若未明確指定編輯區域,可能導致編輯區域不準確,以及在去噪過程中編輯與非編輯區域的標記相互干擾等問題。為解決這些難題,我們提出ReCo——一種新型指令式影片編輯範式,其創新之處在於深入探索情境生成過程中編輯與非編輯區域之間的約束建模。技術上,ReCo採用寬度維度串接源影片與目標影片進行聯合去噪。為校準影片擴散學習,ReCo運用兩項正則化項:潛在正則化與注意力正則化,分別作用於單步反向去噪後的潛在表徵與注意力圖譜。前者通過增大源影片與目標影片在編輯區域的潛在表徵差異,同時縮小非編輯區域的差異,強化編輯區域的修改效果並抑制外部非預期內容生成;後者則壓制編輯區域標記對源影片對應標記的注意力,從而減輕目標影片中新物件生成時的干擾。此外,我們構建了大規模高品質影片編輯數據集ReCo-Data,包含50萬個指令-影片配對以促進模型訓練。在四類主流指令式影片編輯任務上的大量實驗驗證了本方法的優越性。
近期視訊擴散模型的進展,激發了人們對動態場景中相機控制新視角視訊生成的濃厚興趣,旨在為創作者提供後製階段的電影級鏡頭控制能力。相機控制視訊生成的關鍵挑戰在於:既要確保生成結果符合指定相機位姿,又需維持視角一致性,並能根據有限觀測資料推斷被遮擋的幾何結構。現有方法主要透過兩種途徑解決此問題:在軌跡-視訊配對資料集上訓練軌跡條件化視訊生成模型,或從輸入視訊估算深度資訊後沿目標軌跡重投影並生成未投影區域。然而,現有方法難以生成兼具相機位姿精準度與高畫質的視訊,主要原因有二:(1) 基於重投影的方法極易受深度估算誤差影響;(2) 現有資料集中相機軌跡多樣性不足限制了學習模型的能力。為突破這些限制,我們提出InfCam——一種無需深度估算、具高相機位姿保真度的相機控制視訊生成框架。該框架整合兩大核心組件:(1) 無限單應性扭曲技術,將3D相機旋轉直接編碼至視訊擴散模型的2D潛在空間中。透過對此無噪聲旋轉資訊進行條件化處理,經端到端訓練預測殘差視差項,實現高精度的相機位姿還原;(2) 資料增強流程,將現有合成多視角資料集轉換為具多樣化軌跡與焦距的序列。實驗結果表明,InfCam在相機位姿準確度與視覺保真度上均超越基準方法,並能有效從合成資料泛化至真實場景資料。專案頁面連結:https://emjay73.github.io/InfCam/
動態檢索增強生成技術通過在生成過程中自適應地決定何時進行檢索,以緩解大型語言模型中的幻覺問題。然而現有方法依賴模型內部信號(如對數機率、熵),這些信號本質上不可靠,因為大型語言模型通常存在校準不足問題,且經常對錯誤輸出表現出高置信度。我們提出QuCo-RAG方法,將依賴主觀置信度的策略轉向基於預訓練數據計算的客觀統計量。該方法通過兩階段量化不確定性:(1)生成前識別低頻實體以定位長尾知識缺口;(2)生成時驗證實體在預訓練語料庫中的共現情況,零共現往往標誌著幻覺風險。兩階段均利用Infini-gram對4萬億詞元進行毫秒級延遲查詢,當不確定性較高時觸發檢索。在多跳問答基準測試中,QuCo-RAG在OLMo-2模型上相比頂尖基線實現5-12分的精確匹配提升,並能有效遷移至預訓練數據未公開的模型(Llama、Qwen、GPT),最高提升精確匹配達14分。在生物醫學問答領域的泛化測試進一步驗證了該範式的魯棒性。這些成果確立了基於語料庫驗證的動態檢索增強生成作為一種原理清晰、實踐中模型無關的新範式。程式碼已公開於https://github.com/ZhishanQ/QuCo-RAG。
精確評估試題(問題或任務)難度對教育評量至關重要,但始終面臨冷啟動問題的挑戰。儘管大型語言模型展現出超乎人類的問題解決能力,其是否能感知人類學習者的認知困境仍是未解之謎。本研究針對醫學知識與數學推理等多元領域,對超過20個模型進行大規模的「人類與AI難度對齊」實證分析。研究發現系統性的對齊失準現象:擴大模型規模並不可靠地改善對齊效果,模型反而趨向形成機器共識而非與人類認知對齊。我們觀察到,高解題性能往往阻礙準確的難度評估——即使明確要求模型模擬特定能力水平的學生,其仍難以重現學生的能力局限。更關鍵的是,模型存在自省能力缺失,無法預測自身局限。這些結果表明,通用問題解決能力並不意味著能理解人類認知困境,凸顯當前模型用於自動化難度預測的挑戰。
生成具備長程幾何一致性的影片存在一個根本難題:一方面,一致性要求嚴格遵循像素空間中的3D幾何關係,而另一方面,最先進的生成模型卻在相機條件化的潛在空間中運作最為高效。這種斷層導致現有方法在處理遮擋區域和複雜相機軌跡時面臨困難。為彌合此鴻溝,我們提出WorldWarp框架,該框架將3D結構錨點與2D生成修飾器相結合。為建立幾何基礎,WorldWarp透過高斯潑濺(3DGS)技術維護一個線上3D幾何快取。透過將歷史內容顯式扭曲至新視角,此快取作為結構支架,確保每個新幀都遵循先前的幾何關係。然而,靜態扭曲不可避免地會因遮擋而產生空洞與瑕疵。我們採用專為「填充與修訂」目標設計的時空擴散(ST-Diff)模型來解決此問題。我們的關鍵創新在於時空可變的噪聲調度機制:空白區域接受完整噪聲以觸發生成,而扭曲區域則接受部分噪聲以實現精修。透過在每一步動態更新3D快取,WorldWarp能在影片片段間維持一致性。因此,該方法透過以3D邏輯引導結構、同時以擴散邏輯完善紋理,實現了業界頂尖的擬真度。專案頁面:https://hyokong.github.io/worldwarp-page/。
在非結構化環境中的軌跡規劃是移動機器人的基礎且具挑戰性的能力。傳統模組化流程存在感知、定位、建圖與規劃模組間的延遲與級聯誤差問題。近期端到端學習方法直接將原始視覺觀測映射為控制信號或軌跡,有望在開放世界場景中實現更高性能與效率。然而,多數現有端到端方法仍依賴獨立定位模組,需透過精確的感測器外參標定進行自身狀態估計,從而限制了跨實體與環境的泛化能力。我們提出LoGoPlanner,一種基於定位的端到端導航框架,透過以下方式解決這些限制:(1) 微調長時程視覺幾何骨幹網絡,使預測具備絕對公制尺度基礎,從而為精確定位提供隱式狀態估計;(2) 從歷史觀測重建周邊場景幾何,為可靠避障提供稠密細粒度環境感知;(3) 將策略建基於前述輔助任務引導的隱式幾何,從而減少誤差傳播。我們在仿真與真實場景中評估LoGoPlanner,其全端到端設計降低了累積誤差,而具公制感知的幾何記憶增強了規劃一致性與避障能力,相較於具理想定位的基準方法提升超過27.3%,並在跨實體與環境中展現強泛化性。程式碼與模型已公開於https://steinate.github.io/logoplanner.github.io/{專案頁面}。
大型语言模型在代码生成任务中展现出卓越能力,但其效果高度依赖带有大量标注数据(如问答对)或无标注数据集(如代码片段)的监督式训练,而这些数据通常成本高昂且难以大规模获取。为突破这一局限,本文提出IPC方法——一种通过内部探测LLMs实现代码生成的无监督框架,无需任何外部语料(包括无标注代码片段)。我们引入问题空间探测、测试理解探测、解空间探测及知识巩固强化机制,以挖掘LLMs内部存在的知识结构与置信度模式。进一步地,IPC通过自洽性机制和基于表征的质量评估来筛选可靠代码候选,用以训练无监督编码器UCoder。我们在多个代码基准测试中验证所提方法,结果表明无监督方法能达到与监督方法相媲美的性能,同时显著降低对标注数据和计算资源的依赖。分析实验表明,模型内部状态蕴含丰富的代码质量与正确性信号,有效利用这些信号能够为代码生成任务实现高效的无监督学习,为资源受限场景下的代码大模型训练开辟了新路径。
训练能力强的大型语言模型(LLM)智能体正面临关键瓶颈:真实世界交互数据成本高昂且具有静态局限性。我们通过提出GenEnv框架解决这一问题,该框架在智能体与可扩展的生成式环境模拟器之间建立了难度对齐的协同进化博弈。与传统基于静态数据集进化模型的方法不同,GenEnv实现了数据动态演化:模拟器作为动态课程策略,持续生成精准匹配智能体"最近发展区"的任务。这一过程由简单有效的α-课程奖励机制引导,使任务难度与智能体当前能力保持同步。我们在API-Bank、ALFWorld、BFCL、Bamboogle和TravelPlanner五个基准测试中评估GenEnv。在所有任务中,GenEnv将7B基线模型的智能体性能提升最高达40.3%,达到或超越了更大模型的平均表现。与基于Gemini 2.5 Pro的离线数据增强方法相比,GenEnv在使用数据量减少3.3倍的情况下实现了更优性能。通过从静态监督转向自适应模拟,GenEnv为扩展智能体能力提供了一条数据高效路径。
扩散大语言模型(dLLMs)已展现出高速推理的重要潜力。然而当前基于置信度的解码策略受限于并行度不足,通常单次前向传播(TPF)仅能生成1-3个词元。本研究首次发现dLLM推理过程中的并行度对词元填充顺序(TFO)具有高度敏感性,据此提出无需训练即插即用的前瞻并行解码算法LoPA。该算法通过并行分支同步探索不同候选TFO,并基于分支置信度筛选最具并行潜力的路径。将LoPA应用于前沿的D2F模型后,解码效率获得显著提升:在GSM8K数据集上,D2F-Dream模型的TPF提升至10.1,同时性能仍优于Dream基线。为支撑这一突破性并行度,我们开发了具备分支并行(BP)特性的多设备推理系统,在多GPU部署下实现了单样本1073.9词元/秒的吞吐量。代码已开源:https://github.com/zhijie-group/LoPA。
視覺敘事需要生成具有電影級畫質和長程一致性的多鏡頭影片。受人類記憶機制啟發,我們提出StoryMem框架,將長影片敘事重構為基於顯式視覺記憶的迭代鏡頭生成範式,將預訓練的單鏡頭影片擴散模型轉化為多鏡頭敘事生成器。該框架通過創新的記憶到影片(M2V)設計實現:維護由歷史生成鏡頭關鍵幀組成的緊湊動態記憶庫,通過潛在特徵拼接和負向RoPE偏移技術將存儲記憶注入單鏡頭影片擴散模型,且僅需LoRA微調。結合語義關鍵幀選擇策略與美學偏好過濾機制,確保全過程生成信息豐富且穩定的記憶。此外,該框架天然支持平滑鏡頭轉場和自定義敘事生成應用。為便於評估,我們構建了多樣化的多鏡頭影片敘事基準ST-Bench。大量實驗表明,StoryMem在保持高美學品質和提示語遵循度的同時,實現了優於現有方法的跨鏡頭一致性,標誌著向連貫分鐘級影片敘事邁出重要一步。
探索能力同时影响着大型(视觉)语言模型的推理时性能与强化学习训练效果,因为随机采样常产生冗余的推理路径且缺乏高层级多样性。本文提出推理调色板(Reasoning Palette),一种新颖的潜在调制框架,通过为模型配备随机潜变量来实现策略性语境构建,在词元生成前引导其内部规划。该潜在语境通过变分自编码器从问题-答案对的均值池化嵌入中推断得出,每个采样潜变量可能编码不同的推理情境。在推理过程中,采样潜变量被解码为可学习的词元前缀并附加至输入提示前,从而调制模型的内部推理轨迹。通过这种方式,模型在输出生成前对推理策略进行内部采样,进而塑造整个响应序列的风格与结构。简短的监督微调预热阶段使模型能够适应这种潜在条件调节。在强化学习优化中,推理调色板通过按需注入多样化推理模式促进结构化探索,显著提升探索效率与持续学习能力。在多项推理基准测试上的实验表明,本方法能对(视觉)语言模型的策略行为实现可解释、可控的调控,从而相较标准强化学习方法获得持续的性能提升。
在现有移动端在线评测基准中,AndroidWorld凭借其可复现环境和确定性评估已成为主流基准。然而,近期智能体成功率超过90%的表现表明该基准已趋近饱和,亟需构建更具挑战性的新基准。此外,该基准环境缺失电子商务、企业通讯等关键应用类别,且未能体现用户指令模糊化、工具混合使用等真实移动端使用场景。为弥补这一缺陷,我们推出MobileWorld——一个在保持与AndroidWorld同等可复现评估水平的同时,包含20个应用程序共201项任务的基准,其设计能更好反映真实移动端使用场景且挑战性显著提升。 MobileWorld的挑战性主要体现在两方面:首先,它强调跨应用交互的长周期任务,平均任务完成步骤数达到AndroidWorld的近两倍(27.8步 vs 14.3步),多应用任务占比显著提高(62.2% vs 9.5%)。其次,该基准通过引入智能体-用户交互和MCP增强任务等新型任务类别,突破了标准图形界面操作的范畴。为确保评估鲁棒性,我们提供基于快照的容器环境及精确的功能验证机制,包括后端数据库检查与任务回调接口。我们还开发了具有扩展动作空间的规划-执行智能体框架,以支持用户交互和MCP调用。实验结果显示,相较于AndroidWorld基准,最佳智能体框架与端到端模型成功率分别骤降至51.7%和20.9%。分析表明,现有模型在用户交互和MCP调用方面存在显著不足,这为构建更强健的下一代移动智能技术提供了战略发展路径。
在风险投资融资轮次结束前,律师执行的尽职调查包括资本结构核对:即验证每项证券(例如股份、期权、权证)和发行条款(例如归属时间表、加速触发条件、转让限制)都有大量底层法律文件作为支撑。尽管大语言模型在法律基准测试上持续进步,但诸如资本结构核对这类专业法律工作流程,即使对强大的智能体系统而言仍难以实现。该任务需要多文档推理能力、严格的证据可追溯性以及确定性输出,而现有方法均无法稳定满足这些要求。我们将资本结构核准确立为法律人工智能现实场景的基准测试案例,分析比较现有智能体系统的表现,并提出一种面向核对自动化的世界模型架构——该架构更广泛地可作为应用型法律智能的基础框架。
儘管機器人學習領域的最新進展得益於大規模數據集和強大的視覺運動策略架構,但策略的魯棒性仍因收集多樣化示範數據的高昂成本而受限,尤其是在操作任務的空間泛化方面。為減少重複性數據採集,我們提出Real2Edit2Real框架,該框架通過3D控制接口將3D可編輯性與2D視覺數據相結合,從而生成新的示範數據。我們的方法首先通過具備公制尺度重建能力的3D重建模型,從多視角RGB觀測數據中重建場景幾何結構。基於重建的幾何結構,我們對點雲進行深度可靠的3D編輯以生成新的操作軌跡,同時通過幾何校正機械臂位姿來恢復物理一致的深度信息,以此作為合成新示範數據的可靠條件。最後,我們提出以深度信息作為主控信號,結合動作、邊緣和射線圖的多條件視頻生成模型,合成空間增強的多元視角操作視頻。在四項真實世界操作任務上的實驗表明,僅使用1-5個源示範數據生成的訓練策略,其性能可媲美甚至超越基於50個真實示範數據訓練的策略,將數據效率提升高達10-50倍。此外,在高度和紋理編輯方面的實驗結果驗證了該框架的靈活性與可擴展性,表明其具備成為統一數據生成框架的潛力。
我們致力於解決語義3D部件分割問題:將物體分解為具有意義名稱的部件。現有數據集雖包含部件標註,但其定義標準不一,限制了模型的魯棒性訓練。先前方法僅能生成未標記的分解結果或檢索單個部件,且缺乏完整形狀標註。我們提出ALIGN-Parts方法,將部件命名建模為直接的集合對齊任務。該方法通過二分圖匹配,將形體分解為隱式3D部件表徵的「部件元」,並與部件描述進行匹配。我們融合了三類特徵:來自3D部件場的幾何線索、多視角視覺特徵的外觀信息,以及語言模型生成的功能性描述所承載的語義知識。文本對齊損失確保部件元與文本共享嵌入空間,在數據充足條件下實現理論上的開放詞彙匹配框架。我們這種高效新穎的單次3D部件分割與命名方法,可應用於多種下游任務,包括作為可擴展的自動標註引擎。由於模型支持對任意描述的零樣本匹配,並能對已知類別生成置信度校準的預測,經人工驗證後,我們構建了統一的本體框架,整合了PartNet、3DCoMPaT++和Find3D數據集,包含1,794個獨特3D部件。同時展示了新構建的Tex-Parts數據集樣例,並針對命名3D部件分割任務提出了兩種創新評估指標。
视觉语言模型通常通过将预训练视觉编码器生成的图像标记插入语言模型的文本流中进行训练。这种方法虽然允许文本与图像信息在模型内充分交互,但在处理高分辨率图像、长对话或流媒体视频时,无论是内存占用还是计算成本都极为高昂。采用交叉注意力机制的VLM是标记插入法的有效替代方案,但其性能存在明显差距,尤其在涉及细粒度视觉细节的任务上。我们发现改进此类模型的关键在于让专用交叉注意力层同时实现局部文本间交互。基于此,我们提出CASA(通过自注意力实现交叉注意力)——一种简单高效的范式,该方案在常见图像理解基准测试中显著缩小了与全标记插入法的性能差距,同时在处理流媒体视频字幕生成长上下文多模态任务时,兼具与交叉注意力模型相同的可扩展性。相关示例与代码请访问我们的项目页面:https://kyutai.org/casa。
我们从逻辑与自然语言双重视角研究大语言模型的三段论推理能力。在此过程中,我们既探讨了大语言模型的基础推理能力,也展望了该领域的研究发展方向。为辅助研究,我们选取了14个大语言模型,分别从符号推理和自然语言理解两个维度考察其三段论推理表现。尽管这种推理机制并非所有大语言模型普遍具备的涌现特性,但某些模型在符号推理上的完美表现促使我们思考:大语言模型是否正逐渐演变为形式化推理机制,而非真正体现人类推理的微妙之处。
在游戏和电影行业中,手动建模材质参数与三维几何是一项耗时但至关重要的任务。尽管三维重建技术的最新进展已能实现对场景几何与外观的精确近似,但这些方法因缺乏精确的空间变化材质参数,在重光照场景中往往表现不佳。与此同时,基于二维图像的扩散模型在预测基于物理的渲染(PBR)属性(如漫反射率、粗糙度和金属度)方面展现出强大性能。然而,将这些二维材质贴图迁移至重建的三维几何体仍面临重大挑战。我们提出了一种融合学习式与投影式创新方法的框架,将二维材质数据融入三维几何体。该框架首先通过高斯泼溅技术重建场景几何,再利用扩散模型从输入图像生成漫反射率、粗糙度和金属度的二维贴图(任何能将图像或视频转换为PBR材质的现有扩散模型均可适用)。预测结果通过两种方式融入三维表征:一是优化基于图像的损失函数,二是借助高斯光线追踪直接将材质参数投影至高斯单元。为提升微观尺度精度与多视角一致性,我们进一步引入轻量级神经优化步骤(神经融合器),该模块以光线追踪生成的材质特征为输入,输出细节调整量。实验结果表明,所提方法在量化指标与视觉真实感方面均优于现有技术,能够从重建场景中生成更精确、可重光照且具有照片级真实感的渲染效果,显著提升了内容生产流程中资产创建工作流的真实性与效率。
人工智能助手在45%的安全相关场景中会生成存在漏洞的代码,导致大量缺陷被引入生产系统。然而现有的安全编码数据集存在明显不足:缺乏实际事件依据、无法满足现代训练所需的规模、且缺失开发者在生产部署时所需的运营安全上下文。我们推出SecureCode v2.0——一个包含1,215个通过结构验证与专家安全审核的安全编码案例的生产级数据集。每个案例均关联具有CVE编号的实际安全事件文档,提供存在漏洞与安全可靠的代码实现,展示具体攻击手法,并包含纵深防御操作指南。该数据集涵盖11类漏洞(完整覆盖OWASP 2025十大安全风险及AI/ML安全威胁)和11种编程语言(Python、JavaScript、Java、Go、PHP、C#、TypeScript、Ruby、Rust、Kotlin以及用于基础设施即代码的YAML)。 我们的质量保证框架确保所有案例均基于真实事件。每个示例包含SIEM集成策略、基础设施加固建议(Docker、AppArmor、WAF配置)以及基于对应语言的测试框架实施方案。数据集采用四轮对话结构模拟真实开发者-AI交互场景,从基础实现逐步升级到高级安全考量与纵深防御指导。 我们的核心贡献包括:(1)1,215个经过严格验证的案例,划分为989个训练集、122个验证集和104个测试集;(2)确保数据集一致性的自动化验证框架;(3)体现真实安全 workflows 的四轮对话结构;(4)含SIEM集成策略的全面运营安全指南;(5)保持各语言实现准确性的完整技术方案;(6)开源发布数据集、验证工具及基准测试协议。
在专业视频合成流程中,艺术家需要手动创建前景主体与背景图层之间的环境交互效果——例如阴影、倒影、扬尘与溅射。现有视频生成模型难以在保持输入视频的同时添加此类效果,而当前视频修复方法要么需要逐帧标注的高成本蒙版,要么会产生失真的结果。我们提出增强式合成这一新任务,它能基于文本提示和输入视频图层生成逼真的半透明环境特效,同时完整保留原始场景。针对该任务,我们开发了Over++视频特效生成框架,该框架无需对相机位姿、场景静态性或深度监督做任何前提假设。我们为此任务构建了配对的特效数据集,并引入保留文本驱动编辑能力的非配对增强策略。该方法还支持可选蒙版控制和关键帧引导,且无需密集标注。尽管训练数据有限,Over++仍能生成多样化且逼真的环境特效,在特效生成与场景保持两方面均优于现有基线模型。
針對大型語言模型(LLM)的可解釋性方法通常依賴文本監督來推導語義方向,這種方式可能缺乏外部實證基礎。我們提出以人類大腦活動作為坐標系(而非訓練信號)來解讀和調控LLM的內部狀態。基於SMN4Lang腦磁圖數據集,我們構建了詞彙級別的相位鎖定值(PLV)模式腦圖譜,並通過獨立成分分析(ICA)提取潛在軸向。我們採用獨立詞庫和基於命名實體識別(NER)的標籤驗證軸向(使用詞性標註/對數詞頻作為對照基準),隨後訓練輕量級適配器將LLM隱藏狀態映射至這些大腦軸向,而無需微調LLM本身。 通過沿大腦導向軸進行調控,我們在TinyLlama中間層發現了一個穩健的詞彙軸向(與詞頻相關),該效應在困惑度匹配的對照實驗中依然存在。大腦探針與文本探針的對比顯示:大腦軸向在保持更低困惑度的同時,能引發更大的對數詞頻偏移。此外,一個功能/內容軸向(軸13)在TinyLlama、Qwen2-0.5B和GPT-2中均表現出一致的調控效果,並獲得困惑度匹配的文本層面佐證。TinyLlama第4層的效應顯著但不穩定,因此我們將其視作次要發現(見附錄)。當腦圖譜重建時排除GPT嵌入變化特徵或改用word2vec嵌入,軸向結構保持穩定(匹配軸向間|r|=0.64-0.95),降低了循環論證風險。探索性功能磁共振成像錨定實驗提示嵌入變化與對數詞頻可能存在潛在關聯,但該效應對血流動力學建模假設敏感,僅作為群體層面證據。 這些成果確立了一種新範式:以神經生理學為基礎的軸向為LLM行為提供了可解釋且可操控的調控接口。