ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SFT запоминает, RL обобщает: Сравнительное исследование фундаментальной модели после обучения.
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28, 2025
Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
1226

Надзорное дообучение (SFT) и обучение с подкреплением (RL) широко используются как техники послеобучения для базовых моделей. Однако их роли в улучшении обобщающих способностей модели остаются неясными. В данной работе изучается разница между SFT и RL в области обобщения и запоминания, с акцентом на текстовые и визуальные варианты правил. Мы представляем GeneralPoints, карточную игру с арифметическим рассуждением, и используем V-IRL, среду реального мира для навигации, чтобы оценить, как модели, обученные с помощью SFT и RL, обобщаются на невидимые варианты как в текстовой, так и визуальной областях. Мы показываем, что RL, особенно когда обучен с использованием награды на основе результата, обобщается как на основе правил текстовых, так и визуальных вариантов. SFT, напротив, склонно запоминать обучающие данные и испытывает трудности с обобщением в сценариях вне распределения. Дальнейший анализ показывает, что RL улучшает базовые возможности визуального распознавания модели, способствуя ее улучшенному обобщению в визуальной области. Несмотря на превосходство RL в обобщении, мы показываем, что SFT остается необходимым для эффективного обучения RL; SFT стабилизирует формат вывода модели, позволяя последующему RL достичь улучшения производительности. Эти результаты демонстрируют способность RL к приобретению обобщаемых знаний в сложных мультимодальных задачах.

Оптимизация обучения больших языковых моделей с использованием квантования FP4.
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28, 2025
Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng
382

Растущие вычислительные требования к обучению больших языковых моделей (LLM) требуют более эффективных методов. Квантованное обучение представляет собой многообещающее решение, позволяющее использовать арифметические операции с низким битовым разрешением для снижения затрат. Хотя точность FP8 продемонстрировала свою осуществимость, использование FP4 остается вызовом из-за значительных ошибок квантования и ограниченной емкости представления. В данной работе представлена первая среда обучения FP4 для LLM, решающая эти проблемы с помощью двух ключевых инноваций: дифференцируемого оценщика квантования для точных обновлений весов и стратегии зажима и компенсации выбросов для предотвращения коллапса активации. Для обеспечения стабильности среда интегрирует схему обучения смешанной точности и квантование по векторам. Экспериментальные результаты показывают, что наша среда FP4 достигает точности, сравнимой с BF16 и FP8, с минимальным ухудшением, эффективно масштабируется до LLM с 13 млрд параметров, обученных на до 100 млрд токенов. С появлением нового поколения аппаратного обеспечения, поддерживающего FP4, наша среда заложит основу для эффективного обучения с ультранизкой точностью.

Перетокенизированный трансформер: масштабирование словаря обычно оправдано.
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28, 2025
Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
324

Токенизация является фундаментальным компонентом больших языковых моделей (LLM), однако ее влияние на масштабирование модели и производительность не полностью исследовано. В данной статье мы представляем Over-Tokenized Transformers, новую концепцию, которая разделяет входные и выходные словари для улучшения языкового моделирования. Конкретно, наш подход масштабирует входные словари для использования многограммных токенов. Через обширные эксперименты мы обнаружили логарифмическую зависимость между размером входного словаря и потерей при обучении, демонстрируя, что более крупные входные словари последовательно улучшают производительность модели, независимо от ее размера. Используя большой входной словарь, мы достигли производительности, сравнимой с удвоенными базовыми значениями без дополнительных затрат. Наши результаты подчеркивают важность токенизации в законах масштабирования и предоставляют практические идеи для разработки токенизатора, открывая путь к более эффективным и мощным LLM.

DiffSplat: Переиспользование моделей диффузии изображений для масштабируемой генерации гауссовых сплэтов
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28, 2025
Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
223

Недавние достижения в генерации 3D-контента из текста или одного изображения сталкиваются с ограниченными высококачественными 3D-наборами данных и несогласованностью при генерации 2D-многозрительных изображений. Мы представляем DiffSplat, новую 3D-генеративную платформу, которая естественным образом создает 3D-гауссовские пятна, приручивая масштабные модели диффузии текста в изображение. Она отличается от предыдущих 3D-генеративных моделей эффективным использованием 2D-приоров масштаба веба, сохраняя при этом 3D-согласованность в единой модели. Для начального обучения предлагается легкая модель реконструкции, которая мгновенно создает многозрительные сетки гауссовских пятен для масштабируемой кураторской работы с набором данных. В сочетании с обычной потерей диффузии на этих сетках вводится потеря 3D-визуализации для облегчения 3D-согласованности между произвольными видами. Совместимость с моделями диффузии изображений обеспечивает безшовную адаптацию множества техник генерации изображений к 3D-пространству. Обширные эксперименты показывают превосходство DiffSplat в задачах генерации при условии текста и изображения, а также в прикладных задачах. Тщательные исследования абляции подтверждают эффективность каждого критического проектного решения и предоставляют понимание основного механизма.

Открытые проблемы в механистической интерпретуемости
Open Problems in Mechanistic Interpretability

Jan 27, 2025
Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath
192

Механистическая интерпретируемость направлена на понимание вычислительных механизмов, лежащих в основе способностей нейронных сетей, чтобы достичь конкретных научных и инженерных целей. Прогресс в этой области обещает обеспечить большую уверенность в поведении систем и пролить свет на захватывающие научные вопросы о природе интеллекта. Несмотря на недавние успехи в достижении этих целей, в этой области существует множество открытых проблем, требующих решения перед тем, как многие научные и практические преимущества могут быть реализованы: наши методы требуют как концептуальных, так и практических улучшений для выявления более глубоких идей; нам необходимо выяснить, как лучше всего применять наши методы в достижении конкретных целей; и область должна бороться с социотехническими вызовами, которые влияют на нашу работу и на которые она влияет. Этот обзор, смотрящий в будущее, обсуждает текущий фронт механистической интерпретируемости и открытые проблемы, от приоритетности решения которых может выиграть данная область.

Адаптеры низкого ранга встречают поиск нейронной архитектуры для сжатия LLM.
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23, 2025
J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
112

Быстрое расширение моделей с большим языковым объемом (LLM) создало значительные вызовы в отношении вычислительных ресурсов, необходимых для настройки и развертывания. Недавние достижения в области адаптеров с низким рангом продемонстрировали их эффективность в параметрической настройке с эффективным использованием ресурсов (PEFT) этих моделей. В данной ретроспективной статье подробно обсуждаются инновационные подходы, совмещающие низкоранговые представления с техниками поиска нейронной архитектуры (NAS), в частности, суперсети с общими весами. Надежные решения для сжатия и настройки больших предварительно обученных моделей разрабатываются путем интеграции этих методологий. Наш анализ подчеркивает потенциал этих комбинированных стратегий для демократизации использования LLM, сделав их более доступными для развертывания в ресурсоограниченных средах. Полученные модели обладают уменьшенным объемом памяти и более быстрыми временами вывода, что открывает путь для более практичных и масштабируемых приложений LLM. Модели и код доступны по адресу https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

TAID: Временно Адаптивное Интерполированное Дистиллирование для Эффективной Передачи Знаний в Языковых Моделях
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28, 2025
Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
75

Причинные языковые модели продемонстрировали выдающиеся возможности, однако их размер создает значительные проблемы для развертывания в ресурсоемких средах. Дистилляция знаний, широко используемая техника передачи знаний от большой модели-учителя к маленькой модели-студенту, представляет собой многообещающий подход для сжатия модели. Одной из значительных оставшихся проблем являются существенные различия между моделями учителя и студента, а именно значительный разрыв в емкости, усреднение режима и коллапс режима, которые создают препятствия во время дистилляции. Для решения этих проблем мы представляем временно адаптивную интерполированную дистилляцию (TAID), новый подход к дистилляции знаний, который динамически интерполирует распределения студента и учителя через адаптивное промежуточное распределение, постепенно смещаясь от начального распределения студента к распределению учителя. Мы предоставляем теоретический анализ, демонстрирующий способность TAID предотвращать коллапс режима, и эмпирически показываем его эффективность в решении разрыва в емкости, сохраняя баланс между усреднением режима и коллапсом режима. Наши комплексные эксперименты демонстрируют превосходную производительность TAID на различных размерах моделей и архитектурах как в сценариях настройки инструкций, так и предварительного обучения. Более того, мы продемонстрировали практическое влияние TAID, разработав две передовые компактные базовые модели: TAID-LLM-1.5B для языковых задач и TAID-VLM-2B для задач видео-языка. Эти результаты демонстрируют эффективность TAID в создании высокопроизводительных и эффективных моделей, способствуя развитию более доступных технологий искусственного интеллекта.

IndicMMLU-Pro: Оценка индийских крупных языковых моделей на многофункциональном понимании языка.
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27, 2025
Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri
72

Известные более чем 1,5 миллиарда людей на Индийском субконтиненте, индийские языки представляют уникальные вызовы и возможности для исследований по обработке естественного языка (NLP) из-за их богатого культурного наследия, лингвистического разнообразия и сложных структур. IndicMMLU-Pro - это комплексный бенчмарк, разработанный для оценки больших языковых моделей (LLM) на индийских языках, основанный на фреймворке MMLU Pro (Massive Multitask Language Understanding). Охватывая основные языки, такие как хинди, бенгальский, гуджарати, маратхи, каннада, панджаби, тамильский, телугу и урду, наш бенчмарк решает уникальные вызовы и возможности, представленные лингвистическим разнообразием Индийского субконтинента. Этот бенчмарк охватывает широкий спектр задач по пониманию языка, рассуждениям и генерации, тщательно разработанных для улавливания тонкостей индийских языков. IndicMMLU-Pro предоставляет стандартизированный каркас оценки для расширения границ исследований в области искусственного интеллекта на индийских языках, способствуя разработке более точных, эффективных и культурно чувствительных моделей. В данной статье излагаются принципы проектирования бенчмарков, таксономия задач и методология сбора данных, а также представляются базовые результаты от современных мультиязычных моделей.

Histoires Morales: французский набор данных для оценки морального соответствия
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28, 2025
Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier
42

Выравнивание языковых моделей с человеческими ценностями крайне важно, особенно по мере их все более тесной интеграции в повседневную жизнь. Хотя модели часто адаптируются под пользовательские предпочтения, также важно обеспечить их соответствие моральным нормам и поведению в реальных социальных ситуациях. Несмотря на значительные успехи в языках, таких как английский и китайский, французский язык получил мало внимания в этой области, что привело к пробелу в понимании того, как языковые модели обрабатывают моральное рассуждение на этом языке. Для заполнения этого пробела мы представляем Histoires Morales, французский набор данных, происходящий из Моральных Историй, созданный путем перевода и последующей корректировки с участием носителей языка для гарантии грамматической точности и адаптации к французскому культурному контексту. Мы также полагаемся на аннотации моральных ценностей в наборе данных для обеспечения их соответствия французским нормам. Histoires Morales охватывает широкий спектр социальных ситуаций, включая различия в практике чаевых, выражения честности в отношениях и ответственность перед животными. Для поощрения будущих исследований мы также проводим предварительные эксперименты по выравниванию мультиязычных моделей на данных на французском и английском языках и устойчивости выравнивания. Мы обнаружили, что хотя языковые модели обычно выравнены с человеческими моральными нормами по умолчанию, их легко влиять оптимизацией под пользовательские предпочтения как для моральных, так и для аморальных данных.

DeepFlow: Обслуживание крупномасштабных языковых моделей без сервера
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24, 2025
Junhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan
32

Эта статья представляет DeepFlow, масштабируемую и серверлесс платформу искусственного интеллекта, разработанную для эффективного обслуживания больших языковых моделей (LLM) в облаке. DeepFlow решает ключевые проблемы, такие как выделение ресурсов, эффективность обслуживания и задержки при запуске через четыре основных компонента дизайна. Во-первых, он использует простую абстракцию серверлесс под названием модель запрос-работа-задача, которая помогает управлять рабочими нагрузками искусственного интеллекта в задачах после обучения и обслуживания модели. Во-вторых, он создает собственный сервисный движок FlowServe, используя дизайн, вдохновленный микроядром, выполнение, ориентированное на NPU, и параллелизм на основе SPMD для оптимизации обслуживания LLM. Система также включает новые политики планирования, настроенные как для конфигураций с PD-разделением, так и для PD-колокации. Благодаря оптимизациям, таким как предварительное прогревание подов, предварительная загрузка DRAM и NPU-разветвление, DeepFlow может масштабироваться до 64 экземпляров за секунды. DeepFlow находится в производстве уже более года, работая на большом кластере Ascend NPU и предоставляя стандартные API для настройки, обслуживания агентов и обслуживания моделей нашим клиентам.

Jan 28
Jan 29
Jan 30