ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

1

O1 复制之旅 -- 第2部分:通过简单蒸馏超越 O1 预览,取得重大进展还是痛苦教训?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25
ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
47
2

本文对当前复制OpenAI的O1模型能力的方法进行了批判性审查,特别关注广泛但常常未披露的知识蒸馏技术的使用。虽然我们先前的工作探讨了实现O1复制的基本技术路径,但这项研究揭示了如何通过简单地从O1的API中蒸馏,结合监督微调,在复杂数学推理任务上实现卓越性能。通过大量实验,我们展示了一个基础模型在仅微调了数万个样本的O1蒸馏长期思维链后,在美国邀请数学考试(AIME)上的表现优于O1预览,且技术复杂度极低。此外,我们的研究不仅限于数学推理,还探讨了O1蒸馏模型在各种任务上的泛化能力:幻觉、安全性和开放领域问答。值得注意的是,尽管仅在数学问题解决数据上进行训练,我们的模型展现出对开放式问答任务的强大泛化能力,并在微调后显著减少了对谄媚的敏感性。我们有意公开这一发现,以促进AI研究的透明度,并挑战该领域中对技术声明的模糊趋势。我们的工作包括:(1)对蒸馏过程及其有效性的详细技术阐述,(2)一个全面的基准框架,用于评估和分类基于其技术透明度和可重现性的O1复制尝试,(3)对依赖蒸馏方法的局限性和潜在风险的批判性讨论,我们的分析得出一个重要的苦涩教训:虽然追求更有能力的AI系统很重要,但培养以第一原则思维为基础的研究人员的发展至关重要。

2

从生成到判断:LLM作为法官的机遇和挑战
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25
ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
41
2

评估和评价长期以来一直是人工智能(AI)和自然语言处理(NLP)中的关键挑战。然而,无论是基于匹配还是基于嵌入的传统方法,往往难以判断微妙属性并提供令人满意的结果。最近大型语言模型(LLMs)的进展启发了“LLM作为评判者”的范式,其中LLMs被利用来在各种任务和应用中执行评分、排名或选择。本文提供了LLM为基础的评判和评估的全面调查,提供了深入的概述以推动这一新兴领域。我们首先从输入和输出的角度给出详细的定义。然后,我们引入了一个全面的分类法,从三个维度探讨LLM作为评判者:何以评判、如何评判和何处评判。最后,我们编制了用于评估LLM作为评判者的基准,并强调了关键挑战和有前途的方向,旨在提供有价值的见解并激发这一有前途的研究领域的未来研究。有关LLM作为评判者的论文列表和更多资源,请访问https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge和https://llm-as-a-judge.github.io。

3

材料生成:通过扩散为任何3D物体生成材料
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22
ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang
40
3

我们提出了Material Anything,这是一个完全自动化的统一扩散框架,旨在为3D物体生成基于物理的材质。与现有依赖复杂流程或特定优化的方法不同,Material Anything提供了一个强大的端到端解决方案,适用于不同光照条件下的物体。我们的方法利用一个经过预训练的图像扩散模型,增强了三头架构和渲染损失,以提高稳定性和材质质量。此外,我们引入了置信度蒙版作为扩散模型内的动态开关,使其能够有效处理在不同光照条件下的带纹理和无纹理物体。通过采用由这些置信度蒙版引导的渐进材质生成策略,再加上UV空间材质细化器,我们的方法确保了一致、适用于UV的材质输出。大量实验证明,我们的方法在各种物体类别和光照条件下均优于现有方法。

4

GMAI-VL 和 GMAI-VL-5.5M:一种大型视觉-语言模型和一个面向通用医疗人工智能的综合多模态数据集
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Nov 21
ByTianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
39
2

尽管在通用人工智能方面取得了重大进展,例如GPT-4,但由于缺乏专业医学知识,它们在医疗领域(通用医学人工智能,GMAI)的有效性仍受限。为了解决这一挑战,我们提出了GMAI-VL-5.5M,这是一个全面的多模态医学数据集,通过将数百个专业医学数据集转换为精心构建的图像-文本对而创建。该数据集具有全面的任务覆盖范围、多样的模态和高质量的图像文本数据。基于这一多模态数据集,我们提出了GMAI-VL,这是一个通用医学视觉-语言模型,采用逐渐三阶段训练策略。这种方法通过整合视觉和文本信息显著增强了模型的能力,从而提高了处理多模态数据和支持准确诊断和临床决策的能力。实验评估表明,GMAI-VL在广泛的多模态医学任务中取得了最先进的结果,例如视觉问题回答和医学图像诊断。我们的贡献包括开发了GMAI-VL-5.5M数据集,介绍了GMAI-VL模型,并在多个医学领域建立了新的基准。代码和数据集将在https://github.com/uni-medical/GMAI-VL发布。

5

具有修复功能的大规模文本到图像模型是一种零样本主题驱动的图像生成器。
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23
ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
33
2

主题驱动的文本到图像生成旨在通过准确捕捉主题的视觉特征和文本提示的语义内容,在所需的背景下生成新主题的图像。传统方法依赖于耗时且资源密集的微调以实现主题对齐,而最近的零样本方法则利用即时图像提示,通常会牺牲主题对齐。在本文中,我们介绍了Diptych Prompting,这是一种新颖的零样本方法,通过利用大规模文本到图像模型中二联画生成的新兴特性,将其重新解释为一个具有精确主题对齐的修补任务。Diptych Prompting将一个不完整的二联画与参考图像放在左侧面板,并在右侧面板上执行文本条件修补。我们进一步通过去除参考图像中的背景来防止不必要的内容泄漏,并通过在修补过程中增强面板之间的注意力权重来改善生成主题的细节。实验结果证实,我们的方法明显优于零样本图像提示方法,生成的图像在视觉上更受用户喜爱。此外,我们的方法不仅支持主题驱动生成,还支持风格化图像生成和主题驱动图像编辑,展示了在各种图像生成应用中的多功能性。项目页面:https://diptychprompting.github.io/

6

2024年大型语言模型(LLM)黑客马拉松在材料科学和化学应用领域的反思。
Reflections from the 2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Nov 20
ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik
32
2

在这里,我们介绍了第二届大型语言模型(LLM)应用于材料科学和化学的黑客马拉松的成果,该活动吸引了来自全球混合地点的参与者,共收到34个团队的提交。这些提交涵盖了七个关键应用领域,展示了LLM在以下应用中的多样实用性:(1)分子和材料属性预测;(2)分子和材料设计;(3)自动化和新颖界面;(4)科学交流和教育;(5)研究数据管理和自动化;(6)假设生成和评估;以及(7)从科学文献中提取知识和推理。每个团队的提交都在摘要表格中展示,并附有代码链接和简要论文附录。除了团队成果,我们还讨论了黑客马拉松活动及其混合形式,包括在多伦多、蒙特利尔、旧金山、柏林、洛桑和东京设立的实体中心,以及一个全球在线中心,促进本地和虚拟协作。总体而言,这次活动突显了自上一届黑客马拉松以来LLM功能的显著改进,表明LLM在材料科学和化学研究中的应用持续扩展。这些成果展示了LLM的双重实用性,既是多功能模型用于各种机器学习任务,又是快速原型化定制科学研究应用的平台。

7

生成它们的一种扩散
One Diffusion to Generate Them All

Nov 25
ByDuong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
30
2

我们介绍了OneDiffusion,这是一个多功能的大规模扩散模型,无缝支持跨多种任务的双向图像合成和理解。它能够从诸如文本、深度、姿势、布局和语义地图等输入条件生成图像,同时处理诸如图像去模糊、放大以及深度估计和分割等逆向过程。此外,OneDiffusion还支持多视角生成、摄像机姿势估计,以及使用序列图像输入进行即时个性化。我们的模型采用了简单而有效的方法,将所有任务视为在训练过程中具有不同噪声尺度的帧序列,从而允许任何帧在推断时充当条件图像。我们的统一训练框架消除了对专门架构的需求,支持可扩展的多任务训练,并且能够平滑地适应任何分辨率,提高了泛化能力和可扩展性。实验结果表明,尽管训练数据集相对较小,我们的模型在生成和预测任务中表现出色,如文本到图像、多视角生成、ID 保留、深度估计和摄像机姿势估计等。我们的代码和检查点可以在 https://github.com/lehduong/OneDiffusion 免费获取。

8

MH-MoE:多头专家混合模型
MH-MoE:Multi-Head Mixture-of-Experts

Nov 25
ByShaohan Huang, Xun Wu, Shuming Ma, Furu Wei
28
4

多头专家混合(MH-MoE)通过使用多头机制共同关注来自不同专家的各种表示空间中的信息,展现出卓越的性能。在本文中,我们提出了一种新颖的MH-MoE实现,该实现既保持了与稀疏专家混合模型相同的FLOPs和参数对等性。对语言模型的实验结果显示,新实现相对于普通MoE和细粒度MoE模型都取得了质量改进。此外,我们的实验证明MH-MoE与1比特大型语言模型(LLMs)如BitNet兼容。

9

交互式医学图像分割:基准数据集与基线
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Nov 19
ByJunlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
25
2

交互式医学图像分割(IMIS)长期以来受制于大规模、多样化和密集标注数据集的有限可用性,这限制了模型的泛化能力以及在不同模型间的一致评估。在本文中,我们介绍了IMed-361M基准数据集,这是对一般IMIS研究的重大进展。首先,我们从多个数据源收集并标准化了超过640万张医学图像及其对应的地面实况掩模。然后,利用视觉基础模型强大的物体识别能力,我们自动生成了每个图像的密集交互式掩模,并通过严格的质量控制和细粒度管理确保了它们的质量。IMed-361M不同于以往受特定模态或稀疏标注限制的数据集,它涵盖了14种模态和204个分割目标,共计3.61亿个掩模,平均每张图像有56个掩模。最后,我们在该数据集上开发了一个IMIS基准网络,支持通过交互输入(包括点击、边界框、文本提示及其组合)生成高质量掩模。我们从多个角度评估了它在医学图像分割任务中的性能,展示了与现有交互式分割模型相比的卓越准确性和可扩展性。为促进医学计算机视觉基础模型的研究,我们在https://github.com/uni-medical/IMIS-Bench上发布了IMed-361M数据集和模型。

10

谨慎的优化器:用一行代码改善训练
Cautious Optimizers: Improving Training with One Line of Code

Nov 25
ByKaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
21
2

AdamW一直是变压器预训练的默认优化器。多年来,我们的社区一直在寻找更快速、更稳定的优化器,只带来积极的结果。在这项工作中,我们提出了对PyTorch中任何基于动量的优化器进行一行修改的方法,我们将其命名为谨慎优化器,例如C-AdamW和C-Lion。我们的理论结果表明,这种修改保留了Adam的哈密顿函数,并且在李亚普诺夫分析下不会破坏收敛保证。此外,我们的理论洞见揭示了一个全新的优化器家族。在其中,我们选择了最简单的一个进行实证实验,展示了在Llama和MAE预训练中高达1.47倍的加速。代码可在https://github.com/kyleliang919/C-Optim找到。

11

SegBook:用于体积医学图像分割的简单基线和指南
SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

Nov 21
ByJin Ye, Ying Chen, Yanjun Li, Haoyu Wang, Zhongying Deng, Ziyan Huang, Yanzhou Su, Chenglong Ma, Yuanfeng Ji, Junjun He
21
2

计算机断层扫描(CT)是医学成像中最流行的模态之一。迄今为止,CT图像为体积医学分割任务提供了最大的公开数据集,涵盖全身解剖结构。大量的全身CT图像为预训练强大模型(例如以监督方式预训练的STU-Net)提供了机会,用于分割多种解剖结构。然而,目前尚不清楚这些预训练模型在哪些条件下可以转移到不同的下游医学分割任务,特别是分割其他模态和多样化目标。为解决这一问题,对于找到这些条件,关键是进行大规模基准测试。因此,我们收集了87个不同模态、目标和样本大小的公共数据集,以评估全身CT预训练模型的迁移能力。然后,我们采用了代表性模型STU-Net,并使用多个模型尺度进行模态和目标之间的迁移学习。我们的实验结果显示:(1)在微调中可能存在有关数据集大小的瓶颈效应,对于小型和大型数据集的改进要比中等规模数据集更多;(2)在全身CT上预训练的模型展现出有效的模态转移能力,能够很好地适应其他模态,如MRI;(3)在全身CT上进行预训练不仅支持强大的结构检测性能,而且在病变检测方面也表现出有效性,展示了跨目标任务的适应能力。我们希望这种大规模开放的迁移学习评估能够引导未来体积医学图像分割的研究方向。

12

梦境奔跑者:利用检索增强的动作适应进行细粒度故事视频生成
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Nov 25
ByZun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
20
2

最近出现了讲故事视频生成(SVG)作为一项任务,旨在创建长篇、多动作、多场景视频,以一致地呈现输入文本脚本中描述的故事。SVG在媒体和娱乐领域的多样内容创作中具有巨大潜力;然而,它也带来了重大挑战:(1)对象必须展示一系列精细、复杂的动作,(2)多个对象需要在各个场景中保持一致出现,(3)主体可能需要在单个场景内进行多个动作,并实现无缝过渡。为了解决这些挑战,我们提出了DreamRunner,一种新颖的故事到视频生成方法:首先,我们使用大型语言模型(LLM)对输入脚本进行结构化,以促进粗粒度场景规划以及细粒度对象级布局和动作规划。接下来,DreamRunner 提出了检索增强的测试时适应方法,捕捉每个场景中对象的目标运动先验,支持基于检索视频的多样动作定制,从而促进生成具有复杂、脚本化动作的新视频。最后,我们提出了一种新颖的基于空间-时间区域的三维注意力和先验注入模块 SR3AI,用于细粒度对象运动绑定和逐帧语义控制。我们将DreamRunner与各种SVG基线进行比较,展示了在角色一致性、文本对齐和平滑过渡方面的最新性能。此外,DreamRunner 在组合式文本到视频生成中表现出强大的细粒度条件遵循能力,在T2V-ComBench上明显优于基线。最后,我们通过定性示例验证了DreamRunner 生成多对象交互的稳健能力。

13

分解式视觉标记化与生成
Factorized Visual Tokenization and Generation

Nov 25
ByZechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
19
2

视觉标记器对图像生成至关重要。它们将视觉数据转换为离散标记,使基于Transformer的模型在图像生成方面表现出色。尽管VQ基于的标记器(如VQGAN)取得了成功,但由于受限的词汇量大小,它们面临着重大限制。简单地扩展码书往往会导致训练不稳定和性能收益减少,使可扩展性成为一个关键挑战。在这项工作中,我们引入了分解量化(FQ),这是一种通过将大码书分解为多个独立子码书来使VQ基于的标记器焕发活力的新方法。这种因式分解减少了大码书的查找复杂性,实现了更高效和可扩展的视觉标记化。为了确保每个子码书捕获独特和互补信息,我们提出了一种解缠规则,明确减少冗余,促进子码书之间的多样性。此外,我们将表示学习整合到训练过程中,利用像CLIP和DINO这样的预训练视觉模型,将语义丰富性融入到学习表示中。这种设计确保我们的标记器捕获多样的语义层次,从而产生更具表现力和解缠的表示。实验证明,所提出的FQGAN模型显著提高了视觉标记器的重建质量,实现了最先进的性能。我们进一步证明,这种标记器可以有效地应用于自回归图像生成。https://showlab.github.io/FQGAN

14

TEXGen:一种用于网格纹理的生成扩散模型
TEXGen: a Generative Diffusion Model for Mesh Textures

Nov 22
ByXin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
18
2

高质量的纹理贴图对于逼真的3D资产渲染至关重要,然而鲜有研究直接探索在纹理空间中学习,尤其是在大规模数据集上。在这项工作中,我们摆脱了依赖预训练的2D扩散模型在测试时优化3D纹理的传统方法。相反,我们专注于在UV纹理空间本身学习的基本问题。我们首次训练了一个大型扩散模型,能够以前馈方式直接生成高分辨率的纹理贴图。为了促进在高分辨率UV空间中的高效学习,我们提出了一种可扩展的网络架构,交替在UV贴图上进行卷积,并在点云上使用注意力层。利用这种架构设计,我们训练了一个拥有7亿参数的扩散模型,可以生成由文本提示和单视图图像指导的UV纹理贴图。一经训练,我们的模型自然支持各种扩展应用,包括文本引导的纹理修复、稀疏视图纹理完成以及文本驱动的纹理合成。项目页面位于http://cvmi-lab.github.io/TEXGen/。

15

VisualLens:通过视觉历史个性化
VisualLens: Personalization through Visual History

Nov 25
ByWang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong
18
2

我们假设用户的视觉历史,即反映其日常生活的图像,提供了有价值的洞见,能够揭示他们的兴趣和偏好,并可用于个性化定制。在实现这一目标时,面临诸多挑战中,首要挑战是视觉历史中的多样性和噪音,其中包含不一定与推荐任务相关、不一定反映用户兴趣,甚至不一定与偏好相关的图像。现有的推荐系统要么依赖于特定任务的用户交互日志,例如在线购物历史用于购物推荐,要么侧重于文本信号。我们提出了一种新颖的方法,VisualLens,用于提取、过滤和优化图像表示,并利用这些信号进行个性化定制。我们创建了两个新的基准测试,具有任务无关的视觉历史,并展示了我们的方法在Hit@3上比最先进的推荐提高了5-10%,在GPT-4o上提高了2-5%。我们的方法为在传统方法失败的情景下的个性化推荐铺平了道路。

16

利用自然语言监督进行跨模态知识迁移
Knowledge Transfer Across Modalities with Natural Language Supervision

Nov 23
ByCarlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
17
3

我们提出了一种通过仅使用文本描述来学习新概念的方法。我们将这种方法称为知识迁移。类似于人类感知,我们利用跨模态交互来引入新概念。我们假设在预先训练的视觉编码器中已经学习了足够的低级特征(例如形状、外观、颜色),可以用来描述先前未知的高级概念。通过提供新概念的文本描述,我们的方法通过将视觉编码器的已知低级特征与其高级文本描述对齐来运作。我们展示了知识迁移可以通过仅需要目标概念的单一描述,以非常高效的方式在多模态模型中成功引入新概念。我们的方法既适用于独立的文本和视觉编码器(例如CLIP),也适用于跨模态共享参数。我们还展示了,遵循相同原则,知识迁移可以改善模型已知的概念。通过利用知识迁移,我们提高了跨不同任务的零样本性能,例如分类、分割、图像文本检索和字幕生成。

17

从 CISC 到 RISC:语言模型引导的汇编转译
From CISC to RISC: language-model guided assembly transpilation

Nov 25
ByAhmed Heakl, Chaimaa Abi, Rania Hossam, Abdulrahman Mahmoud
15
7

从x86架构向ARM架构的过渡在各个领域变得越来越普遍,主要是由ARM的能效和在传统领域中性能的提升所推动。然而,这种ISA转变带来了重大挑战,主要是由于x86软件的庞大遗留生态系统以及在专有生态系统和软件堆栈之间缺乏可移植性。本文介绍了CRT,一种基于LLM的轻量级转译器,能够自动将x86汇编代码转换为ARM汇编代码。我们的方法弥合了x86基于CISC和ARM基于RISC的计算范式之间的根本架构差距,同时保留了程序语义并优化了性能。我们在各种真实应用程序上评估了CRT,在我们的全面测试套件上实现了从x86到ARMv5的79.25%翻译准确率,以及从x86到RISC-V的88.68%准确率。在Apple M2硬件(ARMv8)上的实际部署中,我们的转译代码相对于Apple的Rosetta 2虚拟化引擎实现了1.73倍的加速,同时提供了2.41倍的内存效率和1.47倍的能源消耗改进。通过测试和分析,我们展示了CRT成功地跨越了CISC/RISC之间的鸿沟,并生成了正确可执行的RISC代码,尽管存在机器“语言”障碍。我们在以下网址发布了我们的代码、模型、训练数据集和基准测试:https://ahmedheakl.github.io/asm2asm/。

18

SplatFlow:用于3D高斯点喷射的多视图矫正流模型综合
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

Nov 25
ByHyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
12
2

基于文本的3D场景生成和编辑具有显著的潜力,通过直观用户交互可简化内容创作流程。尽管最近的进展利用3D高斯飞溅(3DGS)进行高保真实时渲染,现有方法通常是专门化且任务集中,缺乏统一的框架用于生成和编辑。本文介绍了SplatFlow,这是一个全面的框架,通过实现直接的3DGS生成和编辑来填补这一空白。SplatFlow包括两个主要组件:多视图矫正流(RF)模型和高斯飞溅解码器(GSDecoder)。多视图RF模型在潜在空间中运行,同时生成多视图图像、深度和相机姿态,受文本提示条件影响,从而解决了现实世界设置中不同场景尺度和复杂相机轨迹等挑战。然后,GSDecoder通过前馈3DGS方法将这些潜在输出有效地转换为3DGS表示。利用无需训练的反演和修补技术,SplatFlow实现了无缝的3DGS编辑,并在统一框架内支持广泛的3D任务,包括对象编辑、新视角合成和相机姿态估计,而无需额外复杂的流程。我们在MVImgNet和DL3DV-7K数据集上验证了SplatFlow的能力,展示了其在各种3D生成、编辑和修补任务中的多功能性和有效性。

19

所有语言都重要:在具有文化多样性的100种语言上评估LMMs
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Nov 25
ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan
12
2

现有的大型多模态模型(LMMs)通常只关注少数地区和语言。随着LMMs的不断改进,确保它们理解文化背景、尊重当地敏感性,并支持资源稀缺语言变得日益重要,同时有效地整合相应的视觉线索也同样重要。为了追求文化多样性的全球多模态模型,我们提出的全语言重要基准(ALM-bench)代表迄今为止评估100种语言中的LMMs的最大和最全面的努力。ALM-bench通过测试现有模型的能力来理解和推理与各种语言中的文化多样性图像配对的内容,挑战现有模型,包括许多传统上在LMM研究中代表性不足的资源稀缺语言。该基准提供了一个强大而细致的评估框架,包括真/假、多项选择和开放式问题等各种问题格式,并进一步分为短答案和长答案类别。ALM-bench的设计确保了对模型在视觉和语言推理的各种难度水平的处理能力进行全面评估。为了捕捉全球文化的丰富多样性,ALM-bench从13个不同的文化方面精心策划内容,涵盖传统、仪式、名人和庆祝活动等。通过这一点,ALM-bench不仅为最先进的开源和闭源LMMs提供了严格的测试平台,还突显了文化和语言包容性的重要性,鼓励开发能够有效服务各种全球人口的模型。我们的基准测试是公开可用的。

20

LLMs在隐式推理过程中不是按照逐步思考的。
LLMs Do Not Think Step-by-step In Implicit Reasoning

Nov 24
ByYijiong Yu
11
2

众所周知,思维链(Chain-of-Thought)可以显著提升大型语言模型(LLMs)在复杂任务上的表现。然而,由于它会导致推理速度变慢和计算成本增加,许多研究尝试使用隐式思维链(implicit CoT),这种方法不需要LLMs明确生成中间步骤。但它们的有效性与典型的显式思维链方法之间仍存在差距。这让我们怀疑,隐式思维链是否真的等同于显式思维链?因此,在这项研究中,我们通过实验来探讨这个问题。当LLMs执行隐式思维链时,我们从模型的隐藏状态中探测中间步骤的信息。结果令人惊讶地表明,LLMs几乎不考虑中间步骤,这表明它们可能只依赖经验而非严格的逐步推理。此外,我们发现LLMs的隐式推理能力易受影响且不稳定,再次证实了显式思维链对于有效支持复杂任务的必要性。

21

两全其美:混合图序列模型的优势
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Nov 23
ByAli Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
9
2

现代序列模型(例如,Transformer、线性RNN等)已成为最近深度学习框架的主要支柱,主要是因为它们的效率、表征能力和/或捕获长距离依赖关系的能力。最近,采用这些序列模型来处理图结构数据作为消息传递神经网络(MPNNs)的替代方法日益流行。然而,关于构成良好图序列模型的共同基础以及采用不同序列模型进行图学习的好处和不足缺乏共识。为此,我们首先提出了图序列模型(GSM),这是一个统一的框架,用于采用序列模型处理图数据,包括三个主要步骤:(1)标记化,将图转换为一组序列;(2)局部编码,对每个节点周围的局部邻域进行编码;以及(3)全局编码,利用可扩展的序列模型捕获序列内的长距离依赖关系。这一框架使我们能够理解、评估和比较不同序列模型支柱在图任务中的能力。我们通过全局和局部图任务的理论评估来评估Transformer和现代循环模型的表征能力,结果显示这两种模型都有积极和消极的一面。基于这一观察,我们提出了GSM++,这是一个快速的混合模型,使用分层亲和聚类(HAC)算法将图标记化为分层序列,然后采用Transformer的混合架构来对这些序列进行编码。我们的理论和实验结果支持了GSM++的设计,表明GSM++在大多数基准评估中优于基准模型。

22

通过微调来预测新兴能力
Predicting Emergent Capabilities by Finetuning

Nov 25
ByCharlie Snell, Eric Wallace, Dan Klein, Sergey Levine
9
2

现代大型语言模型(LLM)扩展中的一个基本开放性挑战是对新兴能力缺乏理解。特别是,众所周知,语言模型预训练损失在很大程度上可以作为计算的函数高度可预测。然而,下游能力则不那么可预测 -- 有时甚至表现出新兴跃迁 -- 这使得难以预测未来模型的能力。在这项工作中,我们首先提出了新兴预测任务:在当前具有某项任务上随机少样本准确度的LLMs的情况下,我们能否预测未来模型(GPT-N+1)在该任务上是否会具有非平凡准确度?然后,我们为这个问题发现了一个简单的见解:在给定任务上微调LLMs可以将新兴发生的规模点转移到能力更低的模型。为了实现这一见解,我们可以使用不同数量的数据对LLMs进行微调,并拟合一个预测新兴何时发生的参数函数(即“新兴定律”)。我们使用四个标准的自然语言处理基准来验证这种方法,其中大规模开源LLMs已经展示了新兴(MMLU、GSM8K、CommonsenseQA和CoLA)。仅使用小规模LLMs,在某些情况下,我们发现我们可以准确预测使用多达4倍计算量训练的模型是否已经出现。最后,我们提供了两种实际用途的新兴预测案例研究。

23

在3D中查找任意部分
Find Any Part in 3D

Nov 20
ByZiqi Ma, Yisong Yue, Georgia Gkioxari
7
2

我们研究3D开放世界部分分割:基于任何文本查询,在任何物体中分割任何部分。以往的方法在物体类别和部分词汇方面存在局限性。人工智能领域的最新进展展示了在2D中有效的开放世界识别能力。受到这一进展的启发,我们提出了一种用于3D部分分割的开放世界直接预测模型,可以零样本应用于任何物体。我们的方法名为Find3D,通过在互联网上大规模3D资产上训练通用类别点嵌入模型,而无需任何人工标注。它结合了一个数据引擎,由基础模型驱动以注释数据,并采用对比训练方法。我们在多个数据集上实现了强大的性能和泛化能力,相比下一个最佳方法,mIoU提高了最多3倍。我们的模型比现有基准模型快6倍至300倍以上。为鼓励开展通用类别开放世界3D部分分割研究,我们还发布了一个通用物体和部分的基准测试。项目网站:https://ziqi-ma.github.io/find3dsite/

24

DreamMix:解耦对象属性,增强定制图像修复的可编辑性
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Nov 26
ByYicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu
7
3

随着扩散模型的最新进展,基于主体驱动的图像修复已成为图像编辑中的热门任务。先前的方法主要侧重于保留身份,但在保持插入对象的可编辑性方面存在困难。为此,本文引入了DreamMix,一种基于扩散的生成模型,擅长将目标对象插入到给定场景中的用户指定位置,同时实现对其属性进行任意文本驱动修改。具体而言,我们利用先进的基础修复模型,并引入了一个解耦的局部-全局修复框架,以平衡精确的局部对象插入和有效的全局视觉连贯性。此外,我们提出了属性解耦机制(ADM)和文本属性替换(TAS)模块,分别改善了基于文本属性指导的多样性和区分能力。大量实验证明,DreamMix 在各种应用场景中(包括对象插入、属性编辑和小对象修复)有效平衡了身份保留和属性可编辑性。我们的代码可在 https://github.com/mycfhs/DreamMix 上公开获取。

25

不可能的测试:一个2024年无法解决的数据集和对AGI的机会测验
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

Nov 20
ByDavid Noever, Forrest McKee
7
2

本研究介绍了一种新颖的评估框架,旨在评估大型语言模型(LLMs)在675个基本无法解决的问题上承认不确定性的能力。利用一个策划的数据集,包含有意无法知晓答案的研究生级别的重大挑战问题,我们评估了十二种最先进的LLMs,包括开源和闭源模型,在承认无法解答问题的倾向方面,而非生成似是而非但不正确的回答。最佳模型在承认问题解决方案未知的准确率范围为62-68%,涵盖生物学、哲学和数学等领域。我们观察到问题难度与模型准确性之间存在反比关系,GPT-4在更具挑战性的问题上(35.8%)表现出更高的不确定性承认率,而在较简单的问题上(20.0%)表现较低。这种模式表明,当问题看似更易解决时,模型可能更容易生成推测性答案。研究还揭示了问题类别之间的显著差异,模型在承认不确定性方面在发明和NP难问题上存在困难,而在哲学和心理挑战上表现相对较好。这些结果为人工通用智能(AGI)评估领域的研究增添了内容,强调了承认不确定性作为未来机器智能评估的关键组成部分的重要性。这一不可能性测试通过提供当前LLMs在识别自身知识边界方面的局限性的实证证据,扩展了先前的通用智能测试的理论框架,为改进模型训练架构和评估方法提供了新的方向。

26

类别无关姿势估计的边缘权重预测
Edge Weight Prediction For Category-Agnostic Pose Estimation

Nov 25
ByOr Hirschorn, Shai Avidan
6
2

类别无关姿态估计(CAPE)使用单个模型在各种物体类别中定位关键点,仅使用一个或少量带注释的支持图像。最近的研究表明,使用姿态图(即将关键点视为图中的节点而不是孤立点)有助于处理遮挡和破坏对称性。然而,这些方法假设静态姿态图具有等权重边,导致结果不佳。我们引入了EdgeCape,一种通过预测图的边权重来优化定位的新颖框架,以克服这些限制。为了进一步利用结构先验,我们提出集成马尔可夫结构偏差,根据节点之间的跳数调节节点之间的自注意交互。我们展示这样可以提高模型捕捉全局空间依赖性的能力。在包含100个类别和超过20K图像的MP-100基准上评估,EdgeCape在1-shot设置中实现了最先进的结果,并在5-shot设置中领先于类似规模的方法,显著提高了关键点定位准确性。我们的代码已公开发布。

11月25日
11月26日
11月27日