Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

JudgeLM: Тонко настроенные большие языковые модели как масштабируемые судьи
JudgeLM: Fine-tuned Large Language Models are Scalable Judges

Oct 26, 2023

Lianghui Zhu, Xinggang Wang, Xinlong Wang

356

Оценка больших языковых моделей (LLM) в открытых сценариях представляет сложность, поскольку существующие бенчмарки и метрики не могут их измерить всесторонне. Для решения этой проблемы мы предлагаем донастраивать LLM в качестве масштабируемых судей (JudgeLM) для эффективной и качественной оценки LLM в открытых бенчмарках. Сначала мы создаем всеобъемлющий, крупномасштабный, высококачественный набор данных, содержащий исходные задачи, ответы, сгенерированные LLM, и оценки, сгенерированные GPT-4, для донастройки высокопроизводительных судей, а также новый бенчмарк для оценки самих судей. Мы обучаем JudgeLM в различных масштабах — от 7B, 13B до 33B параметров — и проводим систематический анализ его возможностей и поведения. Затем мы анализируем ключевые смещения при донастройке LLM в качестве судьи, выделяя позиционное смещение, смещение знаний и формальное смещение. Для устранения этих проблем JudgeLM внедряет набор техник, включая аугментацию с заменой, поддержку ссылок и исключение ссылок, что значительно улучшает производительность судьи. JudgeLM достигает наилучших результатов в качестве судьи как на существующем бенчмарке PandaLM, так и на нашем новом предложенном бенчмарке. Наш JudgeLM эффективен: JudgeLM-7B требуется всего 3 минуты для оценки 5 тыс. образцов с использованием 8 GPU A100. JudgeLM демонстрирует высокое согласие с судьей-учителем, достигая согласия более 90%, что даже превосходит согласие между людьми. JudgeLM также демонстрирует расширенные возможности в качестве судьи для одиночных ответов, мультимодальных моделей, множественных ответов и многоходового чата.

HyperFields: К созданию генерации NeRF из текста без предварительного обучения
HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Oct 26, 2023

Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka

152

Мы представляем HyperFields — метод генерации тексто-обусловленных Нейронных Полей Излучения (NeRF) с помощью одного прямого прохода и (опционально) некоторой тонкой настройки. Ключевыми элементами нашего подхода являются: (i) динамический гиперсеть, которая изучает плавное отображение из вложений текстовых токенов в пространство NeRF; (ii) обучение дистилляции NeRF, которое преобразует сцены, закодированные в отдельных NeRF, в одну динамическую гиперсеть. Эти методы позволяют одной сети адаптироваться к более чем сотне уникальных сцен. Мы также демонстрируем, что HyperFields изучает более общее отображение между текстом и NeRF, что позволяет предсказывать новые сцены как внутри, так и вне распределения — либо с нуля, либо с помощью нескольких шагов тонкой настройки. Тонкая настройка HyperFields выигрывает от ускоренной сходимости благодаря изученному общему отображению и способна синтезировать новые сцены в 5–10 раз быстрее, чем существующие методы, основанные на нейронной оптимизации. Наши эксперименты с абляцией показывают, что как динамическая архитектура, так и дистилляция NeRF критически важны для выразительности HyperFields.

Контролируемое декодирование языковых моделей
Controlled Decoding from Language Models

Oct 25, 2023

Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng-Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami

152

Мы предлагаем управляемое декодирование (Controlled Decoding, CD) — новый метод обучения с подкреплением вне политики, предназначенный для управления авторегрессионной генерацией языковых моделей в направлении достижения высоких значений награды. CD решает задачу обучения с подкреплением вне политики с помощью функции ценности для награды, которую мы называем оценщиком префиксов. Оценщик префиксов используется на этапе вывода для направления генерации к результатам с более высокой наградой. Мы показываем, что оценщик префиксов может быть обучен на (возможно) данных вне политики для предсказания ожидаемой награды при продолжении декодирования из частично декодированного ответа. Эмпирически мы демонстрируем, что CD эффективен как механизм управления на корпусе диалогов Reddit. Мы также показываем, что модульность конструкции CD позволяет управлять несколькими наградами, эффективно решая задачу многокритериального обучения с подкреплением без дополнительной сложности. Наконец, мы показываем, что CD может быть применен в новом блочном режиме на этапе вывода, снова без необходимости изменений на этапе обучения, что фактически устраняет разрыв между популярной стратегией best-of-K и обучением с подкреплением на уровне токенов. Это делает CD перспективным подходом для согласования языковых моделей.

Deja Vu: Контекстная разреженность для эффективных больших языковых моделей во время вывода
Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

Oct 26, 2023

Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen

141

Крупные языковые модели (LLM) с сотнями миллиардов параметров вызвали новую волну захватывающих приложений в области искусственного интеллекта. Однако их использование на этапе вывода требует значительных вычислительных ресурсов. Разреженность (sparsity) является естественным подходом для снижения этих затрат, но существующие методы либо требуют дорогостоящего переобучения, либо вынуждены отказываться от способности LLM к обучению в контексте, либо не обеспечивают ускорения в реальном времени на современном оборудовании. Мы предполагаем, что контекстная разреженность — небольшие, зависящие от входных данных наборы голов внимания и параметров MLP, которые дают приблизительно тот же результат, что и плотная модель для данного входа, — может решить эти проблемы. Мы показываем, что контекстная разреженность существует, её можно точно предсказать, и её можно использовать для ускорения вывода LLM в реальном времени без ущерба для качества модели или её способности к обучению в контексте. На основе этих идей мы предлагаем систему DejaVu, которая использует недорогой алгоритм для предсказания контекстной разреженности на лету для каждого слоя, а также асинхронную и аппаратно-оптимизированную реализацию, ускоряющую вывод LLM. Мы подтверждаем, что DejaVu может снизить задержку вывода модели OPT-175B более чем в 2 раза по сравнению с передовым FasterTransformer и более чем в 6 раз по сравнению с широко используемой реализацией Hugging Face, без ущерба для качества модели. Код доступен по адресу https://github.com/FMInference/DejaVu.

Deja Vu: Контекстная разреженность для эффективных больших языковых моделей во время вывода
Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

Oct 26, 2023

Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen

141

Ежедневные статьи

JudgeLM: Тонко настроенные большие языковые модели как масштабируемые судьи
JudgeLM: Fine-tuned Large Language Models are Scalable Judges

HyperFields: К созданию генерации NeRF из текста без предварительного обучения
HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Контролируемое декодирование языковых моделей
Controlled Decoding from Language Models

Deja Vu: Контекстная разреженность для эффективных больших языковых моделей во время вывода
Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

Support

Support

Ежедневные статьи

JudgeLM: Тонко настроенные большие языковые модели как масштабируемые судьи
JudgeLM: Fine-tuned Large Language Models are Scalable Judges

HyperFields: К созданию генерации NeRF из текста без предварительного обучения
HyperFields: Towards Zero-Shot Generation of NeRFs from Text

Контролируемое декодирование языковых моделей
Controlled Decoding from Language Models

Deja Vu: Контекстная разреженность для эффективных больших языковых моделей во время вывода
Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time