Ежедневно отобранные исследовательские статьи по ИИ с переводами
Оценка больших языковых моделей (LLM) в открытых сценариях представляет сложность, поскольку существующие бенчмарки и метрики не могут их измерить всесторонне. Для решения этой проблемы мы предлагаем донастраивать LLM в качестве масштабируемых судей (JudgeLM) для эффективной и качественной оценки LLM в открытых бенчмарках. Сначала мы создаем всеобъемлющий, крупномасштабный, высококачественный набор данных, содержащий исходные задачи, ответы, сгенерированные LLM, и оценки, сгенерированные GPT-4, для донастройки высокопроизводительных судей, а также новый бенчмарк для оценки самих судей. Мы обучаем JudgeLM в различных масштабах — от 7B, 13B до 33B параметров — и проводим систематический анализ его возможностей и поведения. Затем мы анализируем ключевые смещения при донастройке LLM в качестве судьи, выделяя позиционное смещение, смещение знаний и формальное смещение. Для устранения этих проблем JudgeLM внедряет набор техник, включая аугментацию с заменой, поддержку ссылок и исключение ссылок, что значительно улучшает производительность судьи. JudgeLM достигает наилучших результатов в качестве судьи как на существующем бенчмарке PandaLM, так и на нашем новом предложенном бенчмарке. Наш JudgeLM эффективен: JudgeLM-7B требуется всего 3 минуты для оценки 5 тыс. образцов с использованием 8 GPU A100. JudgeLM демонстрирует высокое согласие с судьей-учителем, достигая согласия более 90%, что даже превосходит согласие между людьми. JudgeLM также демонстрирует расширенные возможности в качестве судьи для одиночных ответов, мультимодальных моделей, множественных ответов и многоходового чата.
Мы представляем HyperFields — метод генерации тексто-обусловленных Нейронных Полей Излучения (NeRF) с помощью одного прямого прохода и (опционально) некоторой тонкой настройки. Ключевыми элементами нашего подхода являются: (i) динамический гиперсеть, которая изучает плавное отображение из вложений текстовых токенов в пространство NeRF; (ii) обучение дистилляции NeRF, которое преобразует сцены, закодированные в отдельных NeRF, в одну динамическую гиперсеть. Эти методы позволяют одной сети адаптироваться к более чем сотне уникальных сцен. Мы также демонстрируем, что HyperFields изучает более общее отображение между текстом и NeRF, что позволяет предсказывать новые сцены как внутри, так и вне распределения — либо с нуля, либо с помощью нескольких шагов тонкой настройки. Тонкая настройка HyperFields выигрывает от ускоренной сходимости благодаря изученному общему отображению и способна синтезировать новые сцены в 5–10 раз быстрее, чем существующие методы, основанные на нейронной оптимизации. Наши эксперименты с абляцией показывают, что как динамическая архитектура, так и дистилляция NeRF критически важны для выразительности HyperFields.
Мы предлагаем управляемое декодирование (Controlled Decoding, CD) — новый метод обучения с подкреплением вне политики, предназначенный для управления авторегрессионной генерацией языковых моделей в направлении достижения высоких значений награды. CD решает задачу обучения с подкреплением вне политики с помощью функции ценности для награды, которую мы называем оценщиком префиксов. Оценщик префиксов используется на этапе вывода для направления генерации к результатам с более высокой наградой. Мы показываем, что оценщик префиксов может быть обучен на (возможно) данных вне политики для предсказания ожидаемой награды при продолжении декодирования из частично декодированного ответа. Эмпирически мы демонстрируем, что CD эффективен как механизм управления на корпусе диалогов Reddit. Мы также показываем, что модульность конструкции CD позволяет управлять несколькими наградами, эффективно решая задачу многокритериального обучения с подкреплением без дополнительной сложности. Наконец, мы показываем, что CD может быть применен в новом блочном режиме на этапе вывода, снова без необходимости изменений на этапе обучения, что фактически устраняет разрыв между популярной стратегией best-of-K и обучением с подкреплением на уровне токенов. Это делает CD перспективным подходом для согласования языковых моделей.
Крупные языковые модели (LLM) с сотнями миллиардов параметров вызвали новую волну захватывающих приложений в области искусственного интеллекта. Однако их использование на этапе вывода требует значительных вычислительных ресурсов. Разреженность (sparsity) является естественным подходом для снижения этих затрат, но существующие методы либо требуют дорогостоящего переобучения, либо вынуждены отказываться от способности LLM к обучению в контексте, либо не обеспечивают ускорения в реальном времени на современном оборудовании. Мы предполагаем, что контекстная разреженность — небольшие, зависящие от входных данных наборы голов внимания и параметров MLP, которые дают приблизительно тот же результат, что и плотная модель для данного входа, — может решить эти проблемы. Мы показываем, что контекстная разреженность существует, её можно точно предсказать, и её можно использовать для ускорения вывода LLM в реальном времени без ущерба для качества модели или её способности к обучению в контексте. На основе этих идей мы предлагаем систему DejaVu, которая использует недорогой алгоритм для предсказания контекстной разреженности на лету для каждого слоя, а также асинхронную и аппаратно-оптимизированную реализацию, ускоряющую вывод LLM. Мы подтверждаем, что DejaVu может снизить задержку вывода модели OPT-175B более чем в 2 раза по сравнению с передовым FasterTransformer и более чем в 6 раз по сравнению с широко используемой реализацией Hugging Face, без ущерба для качества модели. Код доступен по адресу https://github.com/FMInference/DejaVu.