Ежедневно отобранные исследовательские статьи по ИИ с переводами
Настройка инструкций широко применяется для обеспечения эффективного следования крупными языковыми моделями (LLM) инструкциям пользователей. Результативные способности следования инструкциям LLM в значительной степени зависят от наборов данных инструкций, используемых для настройки. Недавно синтетические наборы данных инструкций стали экономически целесообразным решением для обеспечения LLM разнообразными и качественными инструкциями. Однако существующие подходы обычно предполагают, что более крупные или более мощные модели являются более сильными учителями для настройки инструкций и, следовательно, просто принимают эти модели в качестве генераторов ответов на синтетические инструкции. В данной статье мы оспариваем это широко принятое предположение. Наши обширные эксперименты среди пяти базовых моделей и двадцати генераторов ответов показывают, что более крупные и мощные модели не обязательно являются более сильными учителями для более маленьких моделей. Мы называем этот феномен Парадоксом Более Крупных Моделей. Мы замечаем, что существующие метрики не могут точно предсказать эффективность генераторов ответов, поскольку они игнорируют совместимость между учителями и базовыми моделями, подлежащими доводке. Мы разрабатываем новую метрику, названную Совместимостно-Корректируемая Награда (CAR), для измерения эффективности генераторов ответов. Наши эксперименты среди пяти базовых моделей показывают, что CAR превосходит практически все базовые значения.
Мы представляем JanusFlow, мощный фреймворк, объединяющий понимание и генерацию изображений в одной модели. JanusFlow представляет собой минималистичную архитектуру, которая интегрирует авторегрессивные языковые модели с прямым потоком, передовым методом в генеративном моделировании. Нашим ключевым результатом является демонстрация того, что прямой поток может быть легко обучен в рамках крупной языковой модели, что исключает необходимость в сложных архитектурных модификациях. Для дальнейшего улучшения производительности нашей объединенной модели мы применяем две ключевые стратегии: (i) разделение кодировщиков понимания и генерации, и (ii) выравнивание их представлений во время объединенного обучения. Обширные эксперименты показывают, что JanusFlow достигает сравнимой или превосходной производительности по сравнению с специализированными моделями в их соответствующих областях, превосходя существующие объединенные подходы на стандартных бенчмарках. Эта работа представляет собой шаг к более эффективным и универсальным моделям видео-языка.
Сегментация трехмерных частей является важной и сложной задачей в трехмерном восприятии, играющей ключевую роль в приложениях, таких как робототехника, генерация трехмерных изображений и трехмерное редактирование. Недавние методы используют мощные модели визуально-языкового восприятия (VLM) для дистилляции знаний из двухмерного в трехмерное пространство, достигая нулевой сегментации трехмерных частей. Однако эти методы ограничены своей зависимостью от текстовых подсказок, что ограничивает масштабируемость на большие неразмеченные наборы данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую нулевую систему сегментации трехмерных частей, которая разделяет любой трехмерный объект на семантические части на нескольких уровнях детализации, не требуя заранее определенных наборов меток для частей в виде текстовых подсказок. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции основы извлечения признаков трехмерных объектов, позволяя масштабироваться на большие неразмеченные трехмерные наборы данных для изучения богатых трехмерных априорных знаний. Для гибкости мы дистиллируем масштабоусловленные признаки трехмерных частей для сегментации трехмерных частей на разных уровнях детализации. После получения сегментированных частей из масштабоусловленных признаков трехмерных частей мы используем VLM для назначения семантических меток каждой части на основе многопроекционных изображений. По сравнению с предыдущими методами, наша система SAMPart3D может масштабироваться на недавний крупномасштабный трехмерный набор данных объектов Objaverse и обрабатывать сложные, необычные объекты. Кроме того, мы представляем новый бенчмарк сегментации трехмерных частей для решения проблемы отсутствия разнообразия и сложности объектов и частей в существующих бенчмарках. Эксперименты показывают, что наша система SAMPart3D значительно превосходит существующие методы нулевой сегментации трехмерных частей и может облегчить различные приложения, такие как редактирование на уровне частей и интерактивная сегментация.
Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображений и текста, который заполняет пробел между описательными синтетическими подписями и фактическими веб-масштабными альт-текстами. KALE дополняет синтетические плотные подписи изображений веб-масштабными альт-текстами для создания фактически обоснованных подписей изображений. Наш подход двухэтапный: мы используем большие модели видео-языка и языковые модели для создания знанием насыщенных подписей, которые затем используются для обучения специализированной модели видео-языка для масштабирования набора данных. Мы обучаем модели видео-языка на KALE и демонстрируем улучшения на задачах видео-языка. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы выпускаем набор данных KALE по ссылке https://huggingface.co/datasets/Salesforce/blip3-kale.
В данной статье мы утверждаем, что итеративное вычисление с моделями диффузии предлагает мощный парадигму не только для генерации, но и для задач визуального восприятия. Мы объединяем задачи, такие как оценка глубины, оптический поток и сегментация, под понятием перевода изображения в изображение и показываем, как модели диффузии выигрывают от масштабирования обучения и вычислений на этапе тестирования для этих задач восприятия. Через тщательный анализ этих поведенческих характеристик мы представляем различные техники для эффективного обучения моделей диффузии для задач визуального восприятия. Наши модели достигают улучшенной или сравнимой производительности по сравнению с передовыми методами, используя значительно меньше данных и вычислений. Чтобы использовать наш код и модели, посетите https://scaling-diffusion-perception.github.io.
Крупномасштабные 3D генеративные модели требуют значительных вычислительных ресурсов, однако часто не способны захватить мелкие детали и сложные геометрии на высоких разрешениях. Мы приписываем это ограничение неэффективности текущих представлений, которые не обладают достаточной компактностью для эффективного моделирования генеративных моделей. Для решения этой проблемы мы представляем новый подход, называемый Волновой Латентный Диффузией, или WaLa, который кодирует 3D формы в латентные кодировки на основе вейвлетов. Конкретно, мы сжимаем 256^3 поле знаковых расстояний в 12^3 на 4 латентную сетку, достигая впечатляющего коэффициента сжатия 2427 раз с минимальной потерей деталей. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно один миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрый вывод, создавая формы за два-четыре секунды в зависимости от условия, несмотря на масштаб модели. Мы продемонстрировали передовые результаты на нескольких наборах данных, существенно улучшив качество генерации, разнообразие и вычислительную эффективность. Мы открыто предоставляем наш код и, насколько нам известно, выпускаем наибольшие предварительно обученные 3D генеративные модели различных модальностей.
Реалистичный синтез звука, который передает точные акустические явления, необходим для создания захватывающих впечатлений в виртуальной и дополненной реальности. Синтез звука, получаемого в любой точке, зависит от оценки импульсной характеристики (ИХ), которая характеризует распространение звука в сцене по различным путям перед его приходом в позицию слушателя. В данной статье мы представляем Акустическое объемное визуализирование (AVR), новый подход, который адаптирует техники объемной визуализации для моделирования акустических импульсных характеристик. В то время как объемная визуализация успешно применяется для моделирования полей излучения для изображений и нейронных сценовых представлений, ИХ представляют уникальные вызовы как временные сигналы. Для решения этих вызовов мы представляем объемную визуализацию в частотной области и используем сферическую интеграцию для подгонки измерений ИХ. Наш метод строит поле импульсных характеристик, которое встроенно кодирует принципы распространения волн и достигает передовой производительности в синтезе импульсных характеристик для новых поз. Эксперименты показывают, что AVR превосходит текущие ведущие методы значительно. Кроме того, мы разработали платформу акустического моделирования, AcoustiX, которая обеспечивает более точные и реалистичные симуляции ИХ, чем существующие симуляторы. Код для AVR и AcoustiX доступен по адресу https://zitonglan.github.io/avr.
Теперь обычной практикой в бизнесе стало приобретение доступа к выводу больших языковых моделей (LLM) вместо самостоятельного хостинга из-за значительных начальных затрат на аппаратную инфраструктуру и энергозатраты. Однако для покупателя нет механизма для проверки подлинности рекламируемой услуги, включая обслуживающую аппаратную платформу, например, чтобы убедиться, что она действительно обслуживается с использованием NVIDIA H100. Более того, имеются отчеты, указывающие на то, что поставщики моделей могут поставлять модели, немного отличающиеся от рекламируемых, часто для того, чтобы они работали на более дешевом оборудовании. Таким образом, клиент платит премиум за доступ к способной модели на более дорогом оборудовании, но в итоге обслуживается (возможно, менее способной) более дешевой моделью на более дешевом оборудовании. В данной статье мы представляем метод аппаратного и программного вывода платформы (HSPI) - метод идентификации базовой архитектуры и программного стека (черного ящика) модели машинного обучения исключительно на основе ее входно-выходного поведения. Наш метод использует врожденные различия различных архитектур и компиляторов для различения различных типов и программных стеков. Анализируя числовые шаблоны в выходах модели, мы предлагаем классификационную структуру, способную точно идентифицировать используемую для вывода модели, а также базовую программную конфигурацию. Наши результаты демонстрируют возможность вывода типа из черных ящиков моделей. Мы оцениваем HSPI на моделях, обслуживаемых на разном реальном оборудовании, и обнаруживаем, что в белом ящике мы можем различить разные типы с точностью от 83,9% до 100%. Даже в черном ящике мы можем достичь результатов, которые в три раза превышают точность случайного угадывания.