Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) достигли впечатляющих успехов на многих показателях для математического рассуждения. Однако возрастает обеспокоенность тем, что часть этой производительности фактически отражает загрязнение набора данных, когда данные, сильно напоминающие вопросы показателей, просачиваются в обучающие данные, вместо истинной способности к рассуждению. Для тщательного изучения этого утверждения мы заказываем Grade School Math 1000 (GSM1k). GSM1k разработан для отражения стиля и сложности установленного показателя GSM8k, золотого стандарта для измерения элементарного математического рассуждения. Мы гарантируем, что два показателя сравнимы по важным метрикам, таким как процент решения человеком, количество шагов в решении, величина ответа и другие. При оценке ведущих открытых и закрытых LLM на GSM1k мы наблюдаем снижение точности до 13%, причем у нескольких семейств моделей (например, Phi и Mistral) есть признаки систематического переобучения почти на всех размерах моделей. В то же время многие модели, особенно те, что на передовой позиции (например, Gemini/GPT/Claude), показывают минимальные признаки переобучения. Дальнейший анализ указывает на положительную связь (коэффициент корреляции Спирмена r^2=0,32) между вероятностью модели генерировать пример из GSM8k и разрывом в производительности между GSM8k и GSM1k, что говорит о том, что многие модели могут частично запоминать GSM8k.
Редактирование изображений значительно продвинулось с появлением моделей диффузии, зависящих от текста. Несмотря на этот прогресс, безупречное добавление объектов на изображения на основе текстовых инструкций без необходимости предоставления пользовательских масок ввода остаётся вызовом. Мы решаем эту проблему, опираясь на понимание того, что удаление объектов (заполнение) значительно проще, чем обратный процесс их добавления (рисование), что обусловлено использованием наборов данных сегментации вместе с моделями заполнения, которые заполняют в пределах этих масок. Воспользовавшись этим осознанием, реализуя автоматизированный и обширный конвейер, мы составляем отфильтрованный крупномасштабный набор данных изображений, содержащий пары изображений и соответствующих версий с удаленными объектами. Используя эти пары, мы обучаем модель диффузии инвертировать процесс заполнения, эффективно добавляя объекты на изображения. В отличие от других наборов данных для редактирования, наш набор содержит естественные целевые изображения, а не синтетические; более того, он поддерживает согласованность между исходным и целевым изображениями по своей природе. Кроме того, мы используем крупную модель видения-языка для предоставления подробных описаний удаленных объектов и крупную языковую модель для преобразования этих описаний в разнообразные естественноязыковые инструкции. Мы показываем, что обученная модель превосходит существующие как качественно, так и количественно, и предоставляем крупномасштабный набор данных вместе с обученными моделями для сообщества.
Традиционные подходы к обучению с подкреплением от обратной связи человека (RLHF), основанные на параметрических моделях, таких как модель Брэдли-Терри, недостаточно улавливают непереходящие и иррациональные предпочтения человека. Недавние достижения показывают, что прямая работа с вероятностями предпочтений может обеспечить более точное отражение человеческих предпочтений, обеспечивая более гибкую и точную настройку языковой модели. В данной статье мы предлагаем метод настройки языковой модели на основе самоигры, который рассматривает проблему как игру двух игроков с постоянной суммой, направленную на определение политики равновесия Нэша. Наш подход, названный Самоигровая Оптимизация Предпочтений (SPPO), приближает равновесие Нэша через итеративное обновление политики и обеспечивает теоретическую гарантию сходимости. Наш метод может эффективно увеличить логарифмическую вероятность выбранного ответа и уменьшить вероятность отклоненного ответа, что не может быть тривиально достигнуто симметричной парной потерей, такой как Прямая Оптимизация Предпочтений (DPO) и Оптимизация Предпочтений Идентичности (IPO). В наших экспериментах, используя только 60 тыс. подсказок (без ответов) из набора данных UltraFeedback и без какого-либо дополнения подсказок, используя предварительно обученную модель предпочтений PairRM с всего 0,4 млрд параметров, SPPO может получить модель путем донастройки Mistral-7B-Instruct-v0.2, которая достигает современного уровня выигрыша с контролем длины в 28,53% против GPT-4-Turbo на AlpacaEval 2.0. Он также превосходит (итеративные) DPO и IPO на MT-Bench и Open LLM Leaderboard. Заметим, что высокая производительность SPPO достигается без дополнительного внешнего надзора (например, ответов, предпочтений и т. д.) от GPT-4 или других более мощных языковых моделей.
Данное исследование представляет анализ модификации модели, сосредоточенный на последней крупной языковой модели Llama-3. Мы исследуем эффективность популярных техник модификации модели - ROME, MEMIT и EMMET, предназначенных для точных вмешательств на уровне слоев. Мы определяем наиболее эффективные слои для целевых изменений через оценку, охватывающую до 4096 изменений по трем различным стратегиям: последовательная модификация, пакетная модификация и гибридный подход, который мы называем последовательно-пакетной модификацией. Наши результаты показывают, что увеличение размеров пакета изменений может более значительно снизить производительность модели, чем использование более маленьких пакетов изменений последовательно для равного количества изменений. На основании этого мы утверждаем, что последовательная модификация модели является важным компонентом для масштабирования методов модификации модели, и будущие исследования должны сосредоточиться на методах, объединяющих как пакетную, так и последовательную модификацию. Это наблюдение указывает на потенциальное ограничение в текущих методах модификации модели, которые стремятся к увеличению размеров пакетов изменений, и мы надеемся, что это откроет путь для будущих исследований по оптимизации размеров пакетов и производительности модификации модели.
Большие языковые модели (LLM) значительно продвинули аудиообработку через аудиокодеки, которые преобразуют аудио в дискретные токены, позволяя применять техники языкового моделирования к аудиоданным. Однако традиционные кодеки часто работают с высокими битрейтами или в узких областях, таких как речь, и лишены семантических подсказок, необходимых для эффективного языкового моделирования. Для решения этих проблем мы представляем SemantiCodec, новый кодек, разработанный для сжатия аудио в менее чем сто токенов в секунду по разнообразным типам аудио, включая речь, общее аудио и музыку, без ущерба качеству. SemantiCodec имеет двойную архитектуру кодировщика: семантический кодировщик, использующий самообучаемый AudioMAE, дискретизированный с использованием кластеризации k-средних на обширных аудиоданных, и акустический кодировщик для захвата оставшихся деталей. Выходы семантического и акустического кодировщиков используются для восстановления аудио с помощью декодера на основе модели диффузии. SemantiCodec представлен в трех вариантах с частотой токенов 25, 50 и 100 в секунду, поддерживая широкий диапазон сверхнизких битрейтов от 0,31 кбит/с до 1,43 кбит/с. Экспериментальные результаты показывают, что SemantiCodec значительно превосходит существующий кодек Descript по качеству восстановления. Наши результаты также указывают на то, что SemantiCodec содержит значительно более богатую семантическую информацию, чем все оцененные аудиокодеки, даже при значительно более низких битрейтах. Наш код и демонстрации доступны по адресу https://haoheliu.github.io/SemantiCodec/.
Большие языковые модели (LLM) страдают от низкой эффективности из-за несоответствия между требованиями авторегрессивного декодирования и конструкцией большинства современных графических процессоров. Конкретно, для вычислений на графическом процессоре необходимо загрузить от миллиардов до триллионов параметров через ограниченную пропускную способность памяти для вычислений, хотя фактически вычисляется лишь небольшая партия токенов. В результате графический процессор тратит большую часть времени на передачу данных в память вместо вычислений. Недавно параллельное декодирование, вид спекулятивных алгоритмов декодирования, становится все более популярным и продемонстрировало впечатляющее улучшение эффективности в генерации. Оно вводит дополнительные головы декодирования в большие модели, позволяя им предсказывать несколько последующих токенов одновременно и проверять эти кандидаты на продолжение в одном шаге декодирования. Однако этот подход отклоняется от цели обучения предсказанию следующего токена, используемой во время предварительного обучения, что приводит к низкой точности предсказания кандидатов. В данной статье мы предлагаем новый спекулятивный алгоритм декодирования, Clover, который интегрирует последовательные знания в процесс параллельного декодирования. Это улучшение повышает точность спекуляторов и, следовательно, увеличивает общую эффективность. Clover передает последовательные знания от предварительно спекулированных токенов через Регрессивное Соединение, затем использует Декодер Внимания для интеграции этих спекулированных токенов. Кроме того, Clover включает Дополняющий Блок, который модифицирует скрытые состояния для лучшего соответствия цели спекулятивной генерации, а не предсказанию следующего токена. Результаты экспериментов показывают, что Clover превосходит базовую модель на 91% на Baichuan-Small и на 146% на Baichuan-Large соответственно, и превосходит производительность ранее лучшего метода, Medusa, на 37% на Baichuan-Small и на 57% на Baichuan-Large соответственно.
Недавно трехмерное гауссовское сплетение, как новое трехмерное представление, привлекло внимание своей быстрой скоростью визуализации и высоким качеством визуализации. Однако это сопровождается высоким потреблением памяти, например, хорошо обученное гауссовское поле может использовать три миллиона гауссовских примитивов и более 700 МБ памяти. Мы приписываем это высокое потребление памяти отсутствию учета взаимосвязи между примитивами. В этой статье мы предлагаем память-эффективное гауссовское поле под названием SUNDAE с спектральной обрезкой и нейрокомпенсацией. С одной стороны, мы строим граф на множестве гауссовских примитивов для моделирования их взаимосвязи и разрабатываем модуль спектрального снижения для обрезки примитивов, сохраняя при этом желаемые сигналы. С другой стороны, чтобы компенсировать потерю качества при обрезке гауссов, мы используем легковесную нейронную сеть для смешивания сплетенных признаков, что эффективно компенсирует потери качества, сохраняя при этом веса взаимосвязи между примитивами. Мы демонстрируем производительность SUNDAE с обширными результатами. Например, SUNDAE может достичь 26.80 PSNR при 145 FPS, используя 104 МБ памяти, в то время как обычный алгоритм гауссовского сплетения достигает 25.60 PSNR при 160 FPS, используя 523 МБ памяти на наборе данных Mip-NeRF360. Коды доступны по адресу https://runyiyang.github.io/projects/SUNDAE/.
Отслеживание объектов в трехмерном пространстве критично для автономного вождения. Для обеспечения безопасности во время движения трекер должен надежно отслеживать объекты на протяжении кадров и точно оценивать их состояния, такие как скорость и ускорение в настоящее время. Существующие работы часто сосредотачиваются на задаче ассоциации, пренебрегая производительность модели по оценке состояния или используя сложные эвристики для прогнозирования состояний. В данной статье мы предлагаем STT, модель отслеживания с состоянием, построенную с использованием трансформеров, которая способна последовательно отслеживать объекты в сценах, а также точно предсказывать их состояния. STT использует богатые сигналы внешнего вида, геометрии и движения через долгосрочную историю обнаружений и совместно оптимизирована как для задачи ассоциации данных, так и для оценки состояния. Поскольку стандартные метрики отслеживания, такие как MOTA и MOTP, не улавливают совместную производительность двух задач в широком спектре состояний объектов, мы расширяем их новыми метриками, называемыми S-MOTA и MOTPS, которые решают эту проблему. STT достигает конкурентоспособной производительности в реальном времени на наборе данных Waymo Open.
Разработчики приложений рекламируют свои приложения, создавая страницы продуктов с изображениями приложений и участвуя в аукционах по поисковым запросам. Поэтому крайне важно, чтобы изображения приложений были тесно связаны с поисковыми запросами. Решения этой проблемы требуют модели соответствия изображения и текста для прогнозирования качества соответствия выбранного изображения и поисковых запросов. В данной работе мы представляем новый подход к сопоставлению изображения приложения и поисковых запросов на основе донастройки предварительно обученной модели LXMERT. Мы показываем, что по сравнению с моделью CLIP и базовой моделью, использующей модель Transformer для поисковых запросов и модель ResNet для изображений, мы значительно улучшаем точность сопоставления. Мы оцениваем наш подход, используя два набора меток: связанные с рекламодателями пары (изображение, поисковый запрос) для определенного приложения и оценки людей для соответствия между парами (изображение, поисковый запрос). Наш подход достигает оценки AUC 0.96 для связанных с рекламодателями истинных данных, превосходя базовую модель transformer+ResNet и донастроенную модель CLIP на 8% и 14%. Для истинных данных, помеченных людьми, наш подход достигает оценки AUC 0.95, превосходя базовую модель transformer+ResNet и донастроенную модель CLIP на 16% и 17%.