Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang
62
多模态大型语言模型(MLLMs)在通用任务上已展现出强大的推理能力,然而其在医疗领域的应用仍处于初期阶段。构建思维链(CoT)训练数据对于增强医疗MLLMs的推理能力至关重要。然而,现有方法在提供全面框架以搜索和评估针对关键诊断的有效推理路径方面存在不足。为解决这一挑战,我们提出了导师-实习生协作搜索(MICS),一种新颖的推理路径搜索方案,用于生成严谨且有效的医疗CoT数据。MICS首先利用导师模型逐步初始化推理,随后提示每个实习生模型沿着这些起始路径继续思考,最终根据多个实习生模型的整体推理表现选择最优推理路径。推理表现由MICS评分决定,该评分评估生成推理路径的质量。最终,我们构建了MMRP,一个按难度排序的多任务医疗推理数据集,以及Chiron-o1,一种通过课程学习策略设计的新型医疗MLLM,具备强大的视觉问答和泛化推理能力。大量实验表明,使用MICS构建的CoT数据集训练的Chiron-o1,在一系列医疗视觉问答和推理基准测试中达到了最先进的性能。代码可在GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs获取。
Tamas Bisztray, Bilel Cherif, Richard A. Dubniczky, Nils Gruschka, Bertalan Borsos, Mohamed Amine Ferrag, Attila Kovacs, Vasileios Mavroeidis, Norbert Tihanyi
Mohon Raihan, Plabon Kumar Saha, Rajan Das Gupta, A Z M Tahmidul Kabir, Afia Anjum Tamanna, Md. Harun-Ur-Rashid, Adnan Bin Abdus Salam, Md Tanvir Anjum, A Z M Ahteshamul Kabir
近期,大型语言模型(LLMs)的进展在自然语言处理领域取得了显著成就,然而其计算与内存需求仍构成重大挑战,尤其是在长上下文推理方面。我们提出了TPTT(将预训练Transformer转化为泰坦),一种新颖的框架,旨在通过高效的线性化注意力机制与先进的内存管理技术来增强预训练Transformer模型。TPTT采用了诸如“记忆作为门”(MaG)和混合线性化注意力(LiZA)等技术。该框架完全兼容Hugging Face Transformers库,使得任何因果LLM都能通过参数高效微调(LoRA)实现无缝适应,而无需全面重新训练。我们在MMLU基准测试中,以约10亿参数的模型展示了TPTT的有效性,观察到效率与准确性的显著提升。例如,Titans-Llama-3.2-1B在精确匹配(EM)上较其基线提升了20%。统计分析及与近期最先进方法的比较,证实了TPTT在实际可扩展性与鲁棒性方面的优势。代码可在https://github.com/fabienfrfr/tptt获取,Python包则发布于https://pypi.org/project/tptt/。