每日精选AI研究论文及翻译
大型语言模型(LLM)对高质量数据需求的快速增长,使得对可扩展、可靠且语义丰富的数据准备流程的需求日益迫切。然而,当前实践仍以临时脚本和松散定义的工作流为主,这些方法缺乏系统性抽象、阻碍可复现性,并对模型参与式数据生成的支持有限。为应对这些挑战,我们提出DataFlow——一个统一且可扩展的LLM驱动数据准备框架。该框架采用系统级抽象设计,支持模块化、可复用、可组合的数据转换,并提供类PyTorch的流程构建API,用于构建可调试与可优化的数据流。框架包含近200个可复用算子及六大跨领域流程,涵盖文本、数学推理、代码、Text-to-SQL、智能体RAG和大规模知识抽取场景。为提升易用性,我们引入DataFlow-Agent,通过算子合成、流程规划与迭代验证,将自然语言描述自动转换为可执行流水线。在六大典型应用场景中,DataFlow持续提升下游LLM性能:数学、代码及文本流程在效果上超越人工精标数据集与专业合成基线——Text-to-SQL任务执行准确率较SynSQL提升最高达3%,代码基准测试平均提升7%,MATH、GSM8K和AIME任务获得1-3分增益。此外,由DataFlow生成的统一万条样本数据集,使基础模型性能超越基于百万条Infinity-Instruct数据训练的对照模型。这些结果表明,DataFlow为可靠、可复现、可扩展的LLM数据准备提供了实用高效的基础架构,并为未来以数据为中心的人工智能发展奠定了系统级基石。
跨模态的深度表征本质上是相互交织的。本文系统分析了多种语义编码器与像素编码器的频谱特性。有趣的是,我们的研究揭示了一个极具启发性却鲜被探索的对应关系:编码器的特征频谱与其功能角色存在内在关联——语义编码器主要捕获编码抽象含义的低频分量,而像素编码器则额外保留传递细粒度细节的高频信息。这一启发式发现提供了将编码器行为与其底层频谱结构相统一的新视角。我们将其定义为"棱镜假说":每种数据模态都可视为自然世界在共享特征频谱上的投影,恰如棱镜分光现象。基于此洞见,我们提出了统一自编码模型(UAE),该模型通过创新的频带调制器协调语义结构与像素细节,实现二者的无缝共存。在ImageNet和MS-COCO基准上的大量实验表明,我们的UAE模型以最先进的性能成功将语义抽象与像素级保真度统一至单一潜在空间。
近期,上下文生成范式在指令式图像编辑中展现出强大的数据效率与合成质量。然而,将这种上下文学习模式应用于基于指令的视频编辑并非易事。若未明确编辑区域,结果可能面临编辑区域不准确以及去噪过程中编辑区与非编辑区之间的令牌干扰问题。为此,我们提出ReCo——一种创新的指令式视频编辑范式,通过深入建模上下文生成过程中编辑区与非编辑区之间的约束关系来解决上述问题。技术上,ReCo采用宽度拼接方式将源视频与目标视频联合去噪。为校准视频扩散学习过程,ReCo引入两种正则化项:潜在空间正则化与注意力正则化,分别作用于单步反向去噪后的潜在表示和注意力图谱。前者通过增大源视频与目标视频在编辑区域的潜在差异,同时减小非编辑区域的差异,从而强化编辑区域的修改效果并抑制外部非预期内容生成;后者通过抑制编辑区令牌对源视频对应区域的注意力权重,减轻目标视频中新对象生成时的干扰。此外,我们构建了大规模高质量视频编辑数据集ReCo-Data,包含50万条指令-视频对以促进模型训练。在四大主流指令式视频编辑任务上的大量实验证明了本方法的优越性。
视频扩散模型的最新进展激发了人们对动态场景相机控制新视角视频生成的日益关注,旨在为创作者提供后期制作中的电影级镜头控制能力。相机控制视频生成的关键挑战在于确保对指定相机位姿的忠实度,同时保持视角一致性,并基于有限观测推断被遮挡的几何结构。现有方法或通过在轨迹-视频配对数据集上训练轨迹条件化视频生成模型,或通过从输入视频估计深度以沿目标轨迹重投影并生成未投影区域。然而,现有方法难以生成既忠实于相机位姿又高质量的视频,主要原因有二:(1)基于重投影的方法极易受深度估计误差影响;(2)现有数据集中相机轨迹的有限多样性限制了学习模型的性能。为突破这些局限,我们提出InfCam——一种无需深度估计、具有高位姿忠实度的相机控制视频到视频生成框架。该框架集成两大核心组件:(1)无限单应性扭曲技术,将3D相机旋转直接编码至视频扩散模型的2D潜空间。通过对此无噪声旋转信息进行条件化,经由端到端训练预测残差视差项,以实现高精度的相机位姿忠实度;(2)数据增强流程,将现有合成多视角数据集转换为具有多样化轨迹和焦距的序列。实验结果表明,InfCam在相机位姿精度和视觉保真度上均超越基线方法,并能良好地从合成数据泛化至真实场景。项目页面链接:https://emjay73.github.io/InfCam/
动态检索增强生成通过自适应地确定生成过程中的检索时机,来缓解大语言模型中的幻觉问题。然而现有方法依赖模型内部信号(如对数概率、熵),这些信号本质上不可靠,因为大语言模型通常存在校准不足问题,且经常对错误输出表现出高置信度。我们提出QuCo-RAG方法,将判断依据从主观置信度转向基于预训练数据计算的客观统计量。该方法通过两个阶段量化不确定性:(1)在生成前识别指示长尾知识缺口的低频实体;(2)在生成过程中验证实体在预训练语料中的共现情况,零共现往往意味着幻觉风险。两个阶段均利用Infini-gram对4万亿词元进行毫秒级延迟查询,当检测到高不确定性时触发检索。在多跳问答基准测试中,QuCo-RAG在OLMo-2模型上相比最先进基线实现了5-12个点的精确匹配提升,并能有效迁移至预训练数据未公开的模型(Llama、Qwen、GPT),最高提升14个点。在生物医学问答领域的泛化测试进一步验证了该范式的鲁棒性。这些结果表明,基于语料库的验证为动态RAG提供了一种原理清晰、实际可模型无关的新范式。我们的代码已开源:https://github.com/ZhishanQ/QuCo-RAG。
准确评估题目(问题或任务)难度对教育测评至关重要,但存在冷启动问题。尽管大语言模型展现出超强的问题解决能力,它们是否能感知人类学习者的认知困境仍存疑问。本研究针对医学知识和数学推理等多元领域,对超过20个模型进行了大规模的人类与AI难度对齐实证分析。研究发现存在系统性错位现象:扩大模型规模并不能可靠改善对齐效果;模型非但未能与人类认知对齐,反而趋近于形成机器共识。我们观察到,高性能往往阻碍准确的难度评估——即使明确要求模型模拟特定能力水平,它们仍难以复现学生的能力局限。此外,模型存在显著的内省缺失,无法预判自身局限。这些结果表明,通用问题解决能力并不等同于对人类认知困境的理解,凸显出现有模型在自动化难度预测应用中的挑战。
生成具有长距离几何一致性的视频面临一个根本性困境:几何一致性要求严格遵循像素空间的三维几何规律,而最先进的生成模型却在相机条件化的潜空间中运行最为高效。这种脱节导致现有方法在处理遮挡区域和复杂相机轨迹时表现不佳。为弥合这一差距,我们提出WorldWarp框架,该框架将三维结构锚点与二维生成优化器相结合。为实现几何基础,WorldWarp通过高斯溅射(3DGS)技术维护在线三维几何缓存。通过显式地将历史内容变换到新视角,该缓存充当结构支架,确保每一帧新画面都遵循先前的几何关系。然而静态变换会因遮挡不可避免地产生空洞和伪影。我们采用专为"填充-修正"目标设计的时空扩散(ST-Diff)模型解决此问题。核心创新在于时空动态噪声调度机制:空白区域接受全噪声以触发生成,而变换区域则接受部分噪声以实现优化。通过逐帧动态更新三维缓存,WorldWarp在视频片段间保持一致性,最终以三维逻辑指导结构、扩散逻辑完善纹理的方式实现业界顶尖的生成质量。项目页面:https://hyokong.github.io/worldwarp-page/。
非结构化环境中的轨迹规划是移动机器人基础且关键的能力。传统模块化流程因感知、定位、建图与规划模块间的延迟及误差传递问题而受限。新兴的端到端学习方法将原始视觉观测直接映射为控制信号或轨迹,有望在开放世界场景中实现更高性能与效率。然而现有端到端方案大多仍依赖独立定位模块,需通过精确的传感器外参标定进行自身状态估计,这限制了其在不同机器人本体及环境间的泛化能力。我们提出LoGoPlanner——一种基于定位的端到端导航框架,通过以下方式突破上述局限:(1)微调长时程视觉几何骨干网络,使预测结果具有绝对度量尺度,从而为精确定位提供隐式状态估计;(2)从历史观测数据重建周边场景几何结构,为可靠避障提供稠密细粒度环境感知;(3)将策略学习建立在由上述辅助任务引导的隐式几何基础上,从而减少误差传播。我们在仿真与真实场景中评估LoGoPlanner,其全端到端设计有效降低累积误差,而具备度量感知的几何记忆模块则提升了规划一致性与避障能力,相较基于精确定位的基线方法性能提升超过27.3%,并在不同机器人本体与环境中展现出强大泛化能力。代码与模型已公开于项目页面https://steinate.github.io/logoplanner.github.io/。
大型语言模型(LLMs)在代码生成任务中展现出卓越能力,但其效果高度依赖于带有大量标注数据(如问答对)或无标注数据集(如代码片段)的监督训练,这些数据通常成本高昂且难以大规模获取。为突破这一局限,本文提出IPC方法——一种通过内部探测实现代码生成的无监督框架,无需依赖任何外部语料(包括无标注代码片段)。我们引入问题空间探测、测试理解探测、解空间探测及知识巩固强化机制,深入挖掘LLMs内部存在的知识结构与置信度模式。进一步地,IPC通过自一致性机制和基于表示的质量评估来筛选可靠代码候选,用以训练UCoder(基于无监督学习的代码生成器)。我们在多个代码基准测试上验证了所提方法,结果表明无监督方法能达到与监督方法相媲美的性能,同时显著降低对标注数据和计算资源的依赖。分析实验表明,模型内部状态蕴含丰富的代码质量与正确性信号,有效利用这些信号能够为代码生成任务实现高效的无监督学习,为资源受限场景下训练代码大语言模型开辟了新路径。
训练能力强的大型语言模型(LLM)智能体正面临严峻挑战:真实世界交互数据成本高昂且具有静态局限性。为此,我们提出GenEnv框架,通过在智能体与可扩展的生成式环境模拟器之间建立难度对齐的协同进化博弈来解决这一问题。与传统基于静态数据集的模型进化方法不同,GenEnv实现了数据动态演化:模拟器作为动态课程策略,持续生成与智能体"最近发展区"精准匹配的任务。这一过程由简单有效的α-课程奖励机制引导,使任务难度与智能体当前能力保持同步。我们在API-Bank、ALFWorld、BFCL、Bamboogle和TravelPlanner五个基准测试中评估GenEnv,结果显示:相较于70亿参数基线模型,该框架最高可提升智能体性能40.3%,其平均表现达到或超越更大规模模型。与基于Gemini 2.5 Pro的离线数据增强方法相比,GenEnv在减少3.3倍数据用量的情况下实现了更优性能。通过从静态监督转向自适应模拟,GenEnv为扩展智能体能力提供了一条数据高效的新路径。
扩散大语言模型(dLLMs)已展现出高速推理的重要潜力。然而当前基于置信度的解码策略受限于并行度不足,通常每个前向传播仅能生成1-3个词元。本研究首次发现dLLM推理的并行度对词元填充顺序具有高度敏感性,据此提出无需训练即插即用的前瞻并行解码算法LoPA。该算法通过并行分支同步探索不同候选填充顺序,并基于分支置信度选择最具并行潜力的路径。将LoPA应用于前沿的D2F模型后,解码效率获得显著提升:在GSM8K数据集上,D2F-Dream模型的单前向传播生成词元数提升至10.1个,同时性能保持优于Dream基线。为支撑此突破性并行度,我们研发了具备分支并行特性的多设备推理系统,在多GPU部署下实现了单样本1073.9词元/秒的吞吐量。代码已开源于https://github.com/zhijie-group/LoPA。
视觉叙事需要生成具有电影级质感和长程一致性的多镜头视频。受人类记忆机制启发,我们提出StoryMem范式,将长视频叙事重构为基于显式视觉记忆的迭代镜头生成,使预训练的单镜头视频扩散模型转化为多镜头叙事者。该范式通过创新的记忆到视频(M2V)设计实现:维护由历史生成镜头关键帧组成的紧凑动态记忆库,通过潜在空间拼接和负向RoPE偏移将存储记忆注入单镜头视频扩散模型,仅需LoRA微调。结合语义关键帧选择策略与审美偏好过滤,确保持续生成过程中的信息丰富且稳定的记忆。此外,该框架天然支持平滑镜头转场和定制化故事生成应用。为促进评估,我们推出多镜头视频叙事基准ST-Bench。大量实验表明,StoryMem在保持高审美品质和提示遵循度的同时,实现了优于现有方法的跨镜头一致性,标志着向分钟级连贯视频叙事迈出重要一步。
探索能力同时影响着大型(视觉)语言模型的推理性能与强化学习训练效果,因为随机采样常产生冗余的推理路径且缺乏高层级多样性。本文提出推理调色板(Reasoning Palette)——一种新颖的潜在调制框架,通过引入随机潜变量实现策略性情境构建,在令牌生成前指导模型的内部规划。该潜在上下文通过变分自编码器(VAE)从问答对的均值池化嵌入中推断得出,每个采样潜变量可能编码不同的推理情境。推理过程中,采样潜变量被解码为可学习的令牌前缀并附加至输入提示前,从而调制模型的内部推理轨迹。通过这种方式,模型在输出生成前对推理策略进行内部采样,进而塑造整个响应序列的风格与结构。简短的监督微调预热阶段使模型适应这种潜在条件调节。在强化学习优化中,推理调色板通过按需注入多样化推理模式实现结构化探索,显著提升探索效率与持续学习能力。在多类推理基准测试上的实验表明,本方法能实现对(视觉)语言模型策略行为的可解释、可控调控,相比标准强化学习方法获得持续的性能提升。
在当前移动端在线评测基准中,AndroidWorld凭借其可复现环境和确定性评估已成为主流标准。然而,近期智能体成功率突破90%的数据表明该基准已趋近饱和,亟需更具挑战性的新基准。此外,该环境缺失电子商务、企业通信等关键应用类别,且未能体现用户指令模糊化与混合工具使用等真实移动端使用场景。为弥补这一差距,我们推出MobileWorld——一个在保持同等可复现评估水平的同时,包含20个应用程序共201项任务的挑战性基准,能更准确反映真实移动场景。MobileWorld的挑战性体现在双重维度:首先强调跨应用的长周期任务,其平均任务完成步骤达27.8步(AndroidWorld为14.3步),多应用任务占比达62.2%(AndroidWorld为9.5%);其次突破传统GUI操作范畴,新增智能体-用户交互及MCP增强任务等创新类别。为确保评估鲁棒性,我们提供基于快照的容器环境及包含后端数据库检测与任务回调API的精准功能验证。进一步开发了具有扩展动作空间的规划-执行智能体框架,以支持用户交互和MCP调用。实验结果显示性能较AndroidWorld出现断崖式下跌,最优智能体框架与端到端模型成功率分别为51.7%和20.9%。分析表明现有模型在用户交互与MCP调用方面存在显著不足,这为构建更强健的下一代移动智能技术指明了发展路径。
在风险投资融资轮次结束前,律师开展的尽职调查包括股权结构表核对:即验证每项证券(如股份、期权、权证)及发行条款(如归属时间表、加速触发条件、转让限制)是否均有大量底层法律文件支持。尽管大语言模型在法律基准测试上持续进步,但诸如股权核对这类专业法律工作流程,即便对先进的智能体系统而言仍难以实现。该任务需要多文档推理能力、严格的证据可追溯性以及确定性输出,而现有技术方案均无法稳定满足这些要求。我们将股权结构表核对界定为法律AI现实应用场景的基准测试案例,分析比较现有智能体系统的表现,并提出一种面向核对自动化的世界模型架构——该架构更广泛地可作为应用型法律智能的基础框架。
尽管机器人学习的最新进展得益于大规模数据集和强大的视觉运动策略架构,但策略鲁棒性仍受限于采集多样化演示数据的高昂成本,尤其是在操作任务的空间泛化方面。为减少重复性数据采集,我们提出Real2Edit2Real框架,通过3D控制界面将3D可编辑性与2D视觉数据相融合来生成新演示。该方法首先通过公制尺度的3D重建模型从多视角RGB观测中重建场景几何结构,基于重建几何对点云进行深度可靠的3D编辑以生成新操作轨迹,同时通过几何校正机器人位姿来恢复物理一致的深度信息,为合成新演示提供可靠条件。最后,我们提出以深度作为主要控制信号,结合动作、边缘和射线图的多条件视频生成模型,合成空间增强的多视角操作视频。在四个真实世界操作任务上的实验表明,仅需1-5个原始演示生成的训练数据,其策略性能即可媲美或超越使用50个真实演示训练的模型,将数据效率提升高达10-50倍。此外,高度和纹理编辑的实验结果验证了框架的灵活性与可扩展性,表明其具备成为统一数据生成框架的潜力。
我们致力于解决语义三维部件分割问题:将物体分解为具有意义名称的部件。尽管现有数据集包含部件标注,但其定义标准不一,限制了稳健模型的训练。现有方法或生成未标注的分解结果,或在缺乏完整形状标注的情况下检索单一部件。我们提出ALIGN-Parts方法,将部件命名构建为直接集合对齐任务。该方法将形状分解为部件单元——一种隐式三维部件表征,并通过二分图匹配与部件描述建立对应关系。我们融合了三维部件场的几何线索、多视角视觉特征的外观信息,以及语言模型生成的功能描述所蕴含的语义知识。文本对齐损失确保部件单元与文本共享嵌入空间,在数据充足条件下可实现理论上的开放词汇匹配。我们这种高效新颖的单次三维部件分割与命名方法,可应用于多项下游任务,包括作为可扩展的标注引擎。由于模型支持对任意描述的零样本匹配,并能对已知类别进行置信度校准预测,通过人工验证,我们构建了整合PartNet、3DCoMPaT++和Find3D的统一本体,包含1,794个独特三维部件。同时展示了新构建的Tex-Parts数据集样例,并针对命名三维部件分割任务提出了两项创新性评估指标。
视觉语言模型通常通过将预训练视觉编码器生成的图像标记插入语言模型的文本流中进行训练。这种方法虽然允许文本与图像信息在模型内部充分交互,但在处理高分辨率图像、长对话或流媒体视频时,无论是内存占用还是计算成本都极为高昂。基于交叉注意力机制的VLM是标记插入法的有效替代方案,但其性能存在明显差距,尤其在涉及精细视觉细节的任务上。我们发现改进此类模型的关键在于:在专用交叉注意力层中同时实现局部文本到文本的交互机制。基于此,我们提出CASA(通过自注意力实现交叉注意力)——一种简单高效的范式,该方案在常见图像理解基准测试中显著缩小了与全标记插入法的性能差距,同时在处理流媒体视频描述等长上下文多模态任务时,具备与交叉注意力模型相同的可扩展性。相关示例和代码请访问我们的项目页面:https://kyutai.org/casa。
我们从逻辑与自然语言双重视角研究大语言模型的三段论推理能力。在此过程中,我们深入探索了大语言模型的基础推理能力及其研究发展方向。为辅助研究,我们选取了14个大语言模型,分别从符号推理和自然语言理解两个维度考察其三段论推理表现。尽管这种推理机制并非所有大语言模型普遍具备的涌现特性,但某些模型在符号推理上的完美表现促使我们思考:大语言模型是否正逐渐演变为形式化推理机制,而非真正揭示人类推理的微妙之处。
在游戏和电影行业中,手动建模材质参数与三维几何体是一项耗时但至关重要的任务。尽管三维重建技术的最新进展已能实现场景几何形态与外观的精确近似,但由于缺乏精确的空间变化材质参数,这些方法在重光照场景中往往表现不佳。与此同时,基于二维图像的扩散模型在预测基于物理的渲染(PBR)属性(如漫反射率、粗糙度和金属度)方面展现出强大性能。然而,将这些二维材质贴图迁移至重建的三维几何体仍面临重大挑战。我们提出了一种融合创新学习方法与投影技术的框架,将二维材质数据融入三维几何体。该框架首先通过高斯泼溅技术重建场景几何,再利用扩散模型从输入图像生成漫反射率、粗糙度和金属度的二维贴图(任何能将图像或视频转换为PBR材质的现有扩散模型均可适用)。预测结果通过优化图像损失函数或借助高斯光线追踪直接将材质参数投影至高斯体素的方式,进一步整合到三维表征中。为提升微观尺度精度与多视角一致性,我们还引入了轻量级神经优化模块(神经融合器),该模块以光线追踪生成的材质特征为输入,输出精细化调整参数。实验结果表明,所提方法在定量指标与视觉真实感方面均优于现有技术,能够从重建场景中生成更精确、可重光照且具有照片级真实感的渲染效果,显著提升了内容生产流程中资产创建工作的真实性与效率。
人工智能助手在45%的安全相关场景中生成存在漏洞的代码,导致缺陷被大规模引入生产系统。然而现有安全编码数据集存在明显不足:缺乏事件依据、无法满足现代训练所需的规模、缺失开发者在生产部署时需要的运营安全上下文。我们推出SecureCode v2.0——一个包含1,215个通过结构验证与专家安全审核的安全编码案例的生产级数据集。每个案例均关联具有CVE编号的实际安全事件文档,提供存在漏洞与安全修复的实现方案,展示具体攻击手法,并包含纵深防御操作指南。该数据集涵盖11类漏洞(完整覆盖OWASP 2025十大安全威胁及AI/ML安全威胁)和11种语言(Python、JavaScript、Java、Go、PHP、C#、TypeScript、Ruby、Rust、Kotlin以及基础设施即代码使用的YAML)。 我们的质量保障框架确保所有案例均基于真实事件。每个示例包含SIEM集成策略、基础设施加固建议(Docker、AppArmor、WAF配置)以及基于对应语言的测试框架实施方案。数据集采用四轮对话结构模拟真实开发者-AI交互场景,从基础实现逐步升级到高级安全考量与纵深防御指导。 我们的核心贡献包括:(1)1,215个严格验证的案例,划分为989个训练集、122个验证集和104个测试集;(2)确保数据集一致性的自动化验证框架;(3)捕捉真实安全工效的四轮对话结构;(4)含SIEM集成策略的全面运营安全指南;(5)保持各语言实现准确性的完整技术方案;(6)开源发布数据集、验证工具与基准测试协议。
在专业视频合成流程中,艺术家需手动创建前景主体与背景层之间的环境交互效果——如阴影、倒影、扬尘与飞溅等。现有视频生成模型难以在添加此类效果时保持输入视频的完整性,而当前视频修复方法要么需要逐帧标注的高成本蒙版,要么生成效果失真。我们提出"增强式合成"这一新任务,其能根据文本提示与输入视频层生成逼真的半透明环境特效,同时保留原始场景。针对该任务,我们开发了Over++视频特效生成框架,该框架无需对相机位姿、场景静态性或深度监督做任何假设。我们为此任务构建了配对的特效数据集,并引入保留文本驱动编辑能力的非配对增强策略。该方法还支持可选蒙版控制和关键帧引导,且无需密集标注。尽管训练数据有限,Over++仍能生成多样化且逼真的环境特效,在效果生成与场景保持方面均优于现有基线方法。
针对大型语言模型(LLM)的可解释性方法通常依赖文本监督来推导语义方向,但此类方法缺乏外部实体锚定。我们提出以人脑活动作为坐标系(而非训练信号)来解读和调控LLM的内部状态。基于SMN4Lang脑磁图数据集,我们构建了词级锁相值模式图谱,并通过独立成分分析提取潜在轴。利用独立词典和基于命名实体识别的标签(词性/对数词频作为验证基准)验证这些轴后,我们训练了轻量级适配器,在不微调LLM的情况下将其隐藏状态映射至脑电轴。沿脑电轴调控模型时,在TinyLlama中间层发现了一个稳健的词汇轴(与词频相关),该结果在困惑度匹配控制实验中依然存在;脑电轴与文本探针的对比显示,前者在更低困惑度下产生了更大的对数词频偏移。功能/内容轴(轴13)在TinyLlama、Qwen2-0.5B和GPT-2中均呈现一致的调控效果,并获文本层级困惑度匹配验证。TinyLlama第4层效应显著但不稳定,故视作次要发现(见附录)。当剔除GPT嵌入变化特征或改用word2vec嵌入重建图谱时,轴结构保持稳定(匹配轴间|r|=0.64-0.95),降低了循环论证风险。探索性功能磁共振锚定表明嵌入变化与对数词频可能存在关联,但该效应对血流动力学模型假设敏感,仅视为群体层级证据。这些成果确立了一种新范式:基于神经生理学的坐标轴为LLM行为提供了可解释且可控的调控接口。