Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация музыки привлекает все больший интерес с развитием глубоких генеративных моделей. Однако создание музыки, обусловленной текстовыми описаниями, известное как текст-в-музыку, остается сложной задачей из-за сложности музыкальных структур и высоких требований к частоте дискретизации. Несмотря на важность этой задачи, преобладающие генеративные модели демонстрируют ограничения в качестве музыки, вычислительной эффективности и обобщаемости. В данной статье представлена JEN-1 — универсальная высококачественная модель для генерации музыки из текста. JEN-1 представляет собой диффузионную модель, сочетающую как авторегрессивное, так и неавторегрессивное обучение. Благодаря обучению в контексте, JEN-1 выполняет различные задачи генерации, включая создание музыки по текстовым указаниям, восстановление и продолжение музыкальных фрагментов. Оценки показывают превосходство JEN-1 по сравнению с современными методами в согласованности текста и музыки, а также в качестве музыки, при сохранении вычислительной эффективности. Наши демонстрации доступны по адресу http://futureverse.com/research/jen/demos/jen1.
По мере совершенствования крупных языковых моделей растет интерес к методам, которые используют их возможности для улучшения собственных результатов. В данной работе мы представляем Shepherd — языковую модель, специально настроенную для критического анализа ответов и предложения улучшений, выходя за рамки возможностей ненастроенной модели в выявлении разнообразных ошибок и предоставлении рекомендаций для их устранения. Основой нашего подхода является высококачественный набор данных с обратной связью, который мы создали на основе отзывов сообщества и аннотаций, выполненных людьми. Несмотря на небольшой размер Shepherd (7 млрд параметров), ее критика либо эквивалентна, либо предпочтительнее, чем у известных моделей, включая ChatGPT. По оценке с использованием GPT-4, Shepherd достигает средней частоты предпочтений в 53–87% по сравнению с конкурентными альтернативами. В оценке людьми Shepherd строго превосходит другие модели и в среднем близко соперничает с ChatGPT.
Последние достижения в области больших языковых моделей (LLM) демонстрируют их разнообразные возможности. Мы предлагаем новый алгоритм, поэтапное спекулятивное декодирование, для ускорения вывода LLM в сценариях с малыми пакетами данных на устройствах. Мы решаем проблему низкой арифметической интенсивности при выводе с малыми пакетами, улучшая предыдущие работы в области спекулятивного декодирования. Во-первых, мы реструктурируем спекулятивный пакет в виде дерева, что снижает затраты на генерацию и увеличивает ожидаемое количество токенов на пакет. Во-вторых, мы добавляем второй этап спекулятивного декодирования. В совокупности это позволяет сократить задержку декодирования для одного пакета в 3,16 раза при использовании модели GPT-2-L с 762 миллионами параметров, при этом полностью сохраняя качество выходных данных.
Ложные отрицания (FN) в задачах 3D-детекции объектов, такие как пропущенные предсказания пешеходов, транспортных средств или других препятствий, могут привести к потенциально опасным ситуациям в автономном вождении. Несмотря на критическую важность, эта проблема недостаточно изучена во многих современных методах 3D-детекции. В данной работе мы предлагаем Hard Instance Probing (HIP) — универсальный подход, который выявляет FN в многоэтапной манере и направляет модели на фокусировку на сложных объектах. Для 3D-детекции мы реализуем этот метод в виде FocalFormer3D — простого, но эффективного детектора, который превосходно справляется с обнаружением сложных объектов и повышает полноту предсказаний. FocalFormer3D включает многоэтапную генерацию запросов для обнаружения сложных объектов и декодер на основе трансформера на уровне bounding box, который эффективно отличает объекты среди множества кандидатов. Экспериментальные результаты на наборах данных nuScenes и Waymo подтверждают превосходную производительность FocalFormer3D. Это преимущество приводит к высокой производительности как в задачах детекции, так и трекинга, как в условиях использования только LiDAR, так и в мультимодальных настройках. В частности, FocalFormer3D достигает 70.5 mAP и 73.9 NDS на бенчмарке детекции nuScenes, а на бенчмарке трекинга nuScenes показывает 72.1 AMOTA, занимая первое место в рейтинге LiDAR на nuScenes. Наш код доступен по адресу https://github.com/NVlabs/FocalFormer3D.