Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе мы представляем OmniGen, новую модель диффузии для объединенной генерации изображений. В отличие от популярных моделей диффузии (например, Stable Diffusion), OmniGen больше не требует дополнительных модулей, таких как ControlNet или IP-Adapter, для обработки разнообразных условий управления. OmniGen характеризуется следующими особенностями: 1) Объединение: OmniGen не только демонстрирует возможности генерации текста в изображение, но также встроенно поддерживает другие последующие задачи, такие как редактирование изображений, генерация по субъекту и визуально-условная генерация. Кроме того, OmniGen может обрабатывать классические задачи компьютерного зрения, преобразуя их в задачи генерации изображений, такие как обнаружение границ и распознавание поз человека. 2) Простота: Архитектура OmniGen сильно упрощена, не требуя дополнительных текстовых кодировщиков. Более того, она более удобна для пользователя по сравнению с существующими моделями диффузии, позволяя выполнять сложные задачи по инструкциям без необходимости дополнительных предварительных этапов обработки (например, оценки поз человека), тем самым значительно упрощая рабочий процесс генерации изображений. 3) Перенос знаний: Благодаря обучению в объединенном формате, OmniGen эффективно передает знания между различными задачами, управляет невидимыми задачами и областями, и проявляет новые возможности. Мы также исследуем способности модели к рассуждениям и потенциальные применения механизма цепочки мыслей. Эта работа представляет собой первую попытку создания универсальной модели генерации изображений, и остаются несколько нерешенных вопросов. Мы опубликуем связанные ресурсы в открытом доступе на https://github.com/VectorSpaceLab/OmniGen для содействия прогрессу в этой области.
Мы представляем NVLM 1.0, семейство мультимодальных крупных языковых моделей (LLM) класса фронт-энд, достигающих передовых результатов в задачах видео-языкового взаимодействия, не уступающих ведущим закрытым моделям (например, GPT-4o) и моделям с открытым доступом (например, Llama 3-V 405B и InternVL 2). Замечательно, что NVLM 1.0 показывает улучшенную производительность только с текстом по сравнению со своей базовой LLM после мультимодального обучения. В части конструкции модели мы проводим всестороннее сравнение между мультимодальными LLM только с декодером (например, LLaVA) и моделями на основе кросс-внимания (например, Flamingo). Исходя из сильных и слабых сторон обоих подходов, мы предлагаем новую архитектуру, которая улучшает как эффективность обучения, так и способности к мультимодальному рассуждению. Кроме того, мы представляем дизайн тайл-тегирования 1-D для изображений динамического высокого разрешения на основе тайлов, что значительно повышает производительность в задачах мультимодального рассуждения и OCR. Что касается данных обучения, мы тщательно отбираем и предоставляем подробную информацию о наших мультимодальных предварительном обучении и надзорном дообучении. Наши результаты показывают, что качество набора данных и разнообразие задач важнее масштаба, даже на этапе предварительного обучения, для всех архитектур. Значительно, мы разрабатываем мультимодальность производственного уровня для моделей NVLM-1.0, позволяя им превосходить в задачах видео-языкового взаимодействия, сохраняя и даже улучшая производительность только с текстом по сравнению с их базовыми LLM. Для достижения этого мы создаем и интегрируем набор данных только с текстом высокого качества в мультимодальное обучение, наряду с значительным объемом мультимодальных данных по математике и рассуждениям, что приводит к улучшению способностей в области математики и кодирования в различных модальностях. Для продвижения исследований в этой области мы публикуем веса модели и открываем исходный код для сообщества: https://nvlm-project.github.io/.
Недавние исследования показали, что большие модели диффузии могут быть повторно использованы в качестве высокоточных оценщиков монокулярной глубины, представляя оценку глубины как задачу условной генерации изображения. В то время как предложенная модель достигла лучших результатов, высокие вычислительные требования из-за многоэтапного вывода ограничивали ее использование во многих сценариях. В данной статье мы показываем, что воспринимаемая неэффективность была вызвана дефектом в конвейере вывода, который до сих пор оставался незамеченным. Исправленная модель показывает сравнимую производительность с лучшей ранее сообщенной конфигурацией, при этом работает более чем в 200 раз быстрее. Для оптимизации производительности в задачах последующего использования мы проводим точную настройку на основе модели с одним шагом с использованием потерь, специфичных для задачи, и получаем детерминированную модель, превосходящую все другие модели оценки глубины и нормалей на основе диффузии на общих нулевых бенчмарках. Мы обнаруживаем, что этот протокол точной настройки также работает непосредственно на Stable Diffusion и достигает сравнимой производительности с текущими передовыми моделями оценки глубины и нормалей на основе диффузии, подвергая сомнению некоторые выводы, сделанные в предыдущих работах.
В 3D-моделировании дизайнеры часто используют существующую 3D-модель в качестве эталона для создания новых. Эта практика вдохновила разработку Phidias, новой генеративной модели, которая использует диффузию для генерации 3D с увеличением по эталону. По заданному изображению наш метод использует извлеченную или предоставленную пользователем 3D-эталонную модель для направления процесса генерации, тем самым повышая качество, обобщающую способность и управляемость генерации. Наша модель интегрирует три ключевых компонента: 1) мета-ControlNet, который динамически модулирует силу условий, 2) динамическую маршрутизацию эталонов, которая уменьшает неправильное выравнивание между входным изображением и 3D-эталоном, и 3) самоэталонные увеличения, которые обеспечивают самообучение с прогрессивной учебной программой. В совокупности эти конструкции приводят к явному улучшению по сравнению с существующими методами. Phidias устанавливает единый каркас для генерации 3D с использованием текста, изображения и 3D-условий с разнообразными применениями.
Языковые модели (LM), настроенные на инструкции, способны реагировать на повелительные команды, обеспечивая более естественный пользовательский интерфейс по сравнению с базовыми моделями. В данной работе мы представляем Promptriever, первую модель извлечения, которую можно подстроить под запрос, как LM. Для обучения Promptriever мы создаем и выпускаем новый набор данных для обучения на уровне экземпляра из MS MARCO, охватывающий почти 500 тыс. экземпляров. Promptriever не только достигает высокой производительности на стандартных задачах извлечения, но также следует инструкциям. Мы наблюдаем: (1) значительный прирост (достигнут SoTA) при выполнении подробных инструкций о релевантности (+14,3 p-MRR / +3,1 nDCG на FollowIR), (2) значительно увеличенную устойчивость к лексическим выборам/формулировкам в запросе+инструкции (+12,9 Robustness@10 на InstructIR) и (3) возможность проведения поиска гиперпараметров с помощью запросов для надежного улучшения производительности извлечения (+1,4 среднее увеличение на BEIR). Promptriever демонстрирует, что модели извлечения могут быть управляемыми с помощью запросов на основе каждого запроса, заложив основу для будущих работ по согласованию техник подсказки LM с информационным поиском.
Модели латентной диффузии показали многообещающие результаты в задачах генерации текста в аудио (T2A), однако предыдущие модели столкнулись с трудностями в качестве генерации, вычислительных затратах, диффузионной выборке и подготовке данных. В данной статье мы представляем EzAudio, модель диффузии T2A на основе трансформера, чтобы справиться с этими вызовами. Наш подход включает несколько ключевых инноваций: (1) Мы строим модель T2A в латентном пространстве одномерного вейвформа вариационного автокодировщика (VAE), избегая сложностей обработки двумерных спектральных представлений и использования дополнительного нейронного вокодера. (2) Мы разрабатываем оптимизированную архитектуру диффузионного трансформера, специально адаптированную для аудио латентных представлений и моделирования диффузии, что улучшает скорость сходимости, стабильность обучения и использование памяти, делая процесс обучения более простым и эффективным. (3) Для решения проблемы нехватки данных мы применяем стратегию обучения с эффективным использованием данных, которая использует неразмеченные данные для изучения акустических зависимостей, данные аудио-описаний, аннотированные аудио-языковыми моделями, для обучения выравниванию текста в аудио, и данные, размеченные людьми, для донастройки. (4) Мы представляем метод пересчета без классификатора (CFG), упрощающий EzAudio путем достижения точного выравнивания при помощи больших оценок CFG, сохраняя отличное качество звука, что устраняет необходимость борьбы с поиском оптимальной оценки CFG для балансировки этого компромисса. EzAudio превосходит существующие модели с открытым исходным кодом как по объективным метрикам, так и по субъективным оценкам, обеспечивая реалистичный звуковой опыт при сохранении упрощенной структуры модели, низких затрат на обучение и простого воспроизведения процесса обучения. Код, данные и предварительно обученные модели доступны по ссылке: https://haidog-yaqub.github.io/EzAudio-Page/.
Предыдущие исследования оценивали квантованные LLMs, используя ограниченные метрики, такие как перплексия или несколько базовых задач по знаниям на старых наборах данных. Кроме того, недавние крупномасштабные модели, такие как Llama 3.1 с объемом до 405 млрд, не были тщательно изучены. В данной статье оценивается производительность настроенных на инструкции LLMs с использованием различных методов квантования (GPTQ, AWQ, SmoothQuant и FP8) на моделях от 7 млрд до 405 млрд. С использованием 13 бенчмарков мы оцениваем производительность по шести типам задач: вопросы и ответы на здравый смысл, понимание знаний и языка, следование инструкциям, обнаружение галлюцинаций, математика и диалог. Наши ключевые результаты показывают, что (1) квантование более крупного LLM до схожего размера с меньшим FP16 LLM обычно дает лучшие результаты по большинству бенчмарков, за исключением обнаружения галлюцинаций и следования инструкциям; (2) производительность значительно варьируется в зависимости от различных методов квантования, размера модели и битовой глубины, причем методы только для весов часто дают лучшие результаты в более крупных моделях; (3) сложность задачи не оказывает значительного влияния на деградацию точности из-за квантования; и (4) метод оценки MT-Bench имеет ограниченную дискриминационную способность среди недавних высокопроизводительных LLMs.
Модели видеодиффузии показали большой потенциал в создании видео высокого качества, что делает их все более популярным объектом изучения. Однако их врожденная итеративная природа приводит к значительным вычислительным и временным затратам. В ходе исследований предпринимались попытки ускорить видеодиффузию путем сокращения шагов вывода (с использованием методов, таких как дистилляция согласованности) и обучения GAN (однако эти подходы часто не обеспечивают достаточной производительности или устойчивости обучения). В данной работе мы представляем двухэтапную структуру обучения, которая эффективно сочетает в себе дистилляцию согласованности и обучение GAN для решения этих проблем. Кроме того, мы предлагаем новый дизайн видеодискриминатора, который устраняет необходимость в декодировании видео латентных представлений и улучшает конечную производительность. Наша модель способна создавать видео высокого качества всего за один шаг, с возможностью выполнения многоэтапного уточнения для дальнейшего улучшения производительности. Наше количественное оценивание на базе данных OpenWebVid-1M показывает, что наша модель значительно превосходит существующие методы. Значительно, наша производительность за один шаг (FVD 171.15) превосходит производительность за 8 шагов метода на основе дистилляции согласованности, AnimateLCM (FVD 184.79), и приближается к производительности за 25 шагов передового метода Stable Video Diffusion (FVD 156.94).
Моделирование на основе агентов (ABM) стремится понять поведение сложных систем путем имитации группы агентов, которые действуют и взаимодействуют в среде. Их практическая ценность требует учета реалистичной динамики окружающей среды и адаптивного поведения агентов при эффективном моделировании популяций миллионного размера. Недавние достижения в области больших языковых моделей (LLM) предоставляют возможность улучшить ABM, используя LLM в качестве агентов с дополнительным потенциалом захвата адаптивного поведения. Однако вычислительная невозможность использования LLM для больших популяций затруднила их широкое принятие. В данной статье мы представляем AgentTorch - фреймворк, который масштабирует ABM до миллионов агентов, захватывая поведение агентов высокого разрешения с использованием LLM. Мы оцениваем полезность LLM в качестве агентов ABM, исследуя компромисс между масштабом моделирования и индивидуальным агентством. Используя пандемию COVID-19 в качестве кейс-стади, мы демонстрируем, как AgentTorch может моделировать 8,4 миллиона агентов, представляющих Нью-Йорк, захватывая влияние изоляции и занятости на здоровье и экономические результаты. Мы сравниваем производительность различных архитектур агентов на основе эвристических и LLM агентов в прогнозировании волн заболеваемости и уровней безработицы. Кроме того, мы демонстрируем возможности AgentTorch для ретроспективного, контрфактического и перспективного анализа, подчеркивая, как адаптивное поведение агентов может помочь преодолеть ограничения исторических данных в разработке политики. AgentTorch - это проект с открытым исходным кодом, активно используемый для разработки политики и научных открытий по всему миру. Фреймворк доступен здесь: github.com/AgentTorch/AgentTorch.
Мы сосредотачиваемся на гибком, непрерывном и адаптивном к местности прыжках четырехногих роботов в разрывистых местностях, таких как лестницы и ступенчатые камни. В отличие от одношаговых прыжков, непрерывный прыжок требует точного выполнения высокодинамичных движений на длительных горизонтах, что является сложным для существующих подходов. Для выполнения этой задачи мы разработали иерархическую обучающую и управляющую структуру, которая состоит из обученного предсказателя карты высот для надежного восприятия местности, политики движения на уровне центроида на основе обучения с подкреплением для гибкого и адаптивного к местности планирования, а также низкоуровневого контроллера ног на основе модели для точного отслеживания движения. Кроме того, мы минимизируем разрыв между симуляцией и реальностью, точно моделируя аппаратные характеристики. Наша структура позволяет роботу Unitree Go1 выполнять гибкие и непрерывные прыжки на лестницах человеческого размера и разреженных ступенчатых камнях, впервые, насколько нам известно. В частности, робот может преодолеть два ступеня лестницы за один прыжок и пройти 3,5 м в длину, 2,8 м в высоту, 14-ступенчатую лестницу за 4,5 секунды. Более того, та же политика превосходит базовые показатели в различных других задачах паркура, таких как прыжки через одиночные горизонтальные или вертикальные разрывы. Видео экспериментов можно найти по ссылке https://yxyang.github.io/jumping\_cod/.
Цифровизация трехмерных статических сцен и четырехмерных динамических событий из многозрительных изображений давно является вызовом в области компьютерного зрения и графики. Недавно метод трехмерного гауссова сплетения (3DGS) выдвинулся как практичный и масштабируемый метод реконструкции, завоевав популярность благодаря впечатляющему качеству реконструкции, возможностям реального времени отображения и совместимости с широко используемыми инструментами визуализации. Однако для достижения высококачественной реконструкции сцены метод требует значительного количества входных видов, что создает значительное практическое узкое место. Эта проблема особенно остра в случае захвата динамических сцен, где развертывание обширного массива камер может быть чрезмерно дорогостоящим. В данной работе мы выявляем отсутствие пространственной автокорреляции свойств сплетения как один из факторов, способствующих неоптимальной производительности техники 3DGS в условиях разреженной реконструкции. Для решения проблемы мы предлагаем стратегию оптимизации, которая эффективно регуляризует свойства сплетения, моделируя их как результаты соответствующего неявного нейронного поля. Это приводит к последовательному улучшению качества реконструкции в различных сценариях. Наш подход эффективно обрабатывает статические и динамические случаи, как продемонстрировано при обширном тестировании на различных настройках и сложностях сцен.
LLM являются неотъемлемой частью систем генерации с усилением поиска (RAG). В то время как многие исследования фокусируются на оценке качества систем RAG с конечным до конечного решением, существует недостаток исследований по пониманию соответствия LLM для задачи RAG. Таким образом, мы представляем новую метрику, Trust-Score, которая обеспечивает всестороннюю оценку доверия LLM в рамках RAG. Мы показываем, что различные методы подсказок, такие как обучение в контексте, неэффективно адаптируют LLM для задачи RAG. Поэтому мы предлагаем Trust-Align, фреймворк для выравнивания LLM для достижения более высокого Trust-Score. LLaMA-3-8b, выровненный с нашим методом, значительно превосходит открытые LLM сравнимого размера на наборах данных ASQA (на 10.7), QAMPARI (на 29.2) и ELI5 (на 14.9). Мы выкладываем наш код по ссылке: https://github.com/declare-lab/trust-align.
Понимание эмоций является фундаментальным для взаимодействия и опыта человека. Люди легко делают выводы о эмоциях из ситуаций или выражений лица, ситуации из эмоций, а также выполняют различные другие аффективные когнитивные процессы. Насколько искусственный интеллект сегодня умел в этих выводах? Мы представляем рамочную оценку для тестирования аффективного когнитива в базовых моделях. Начиная с психологической теории, мы создаем 1,280 разнообразных сценариев, исследующих взаимосвязи между оценками, эмоциями, выражениями и результатами. Мы оцениваем способности базовых моделей (GPT-4, Claude-3, Gemini-1.5-Pro) и людей (N = 567) в тщательно выбранных условиях. Наши результаты показывают, что базовые модели обычно согласуются с человеческими интуициями, соответствуя или превосходя межличностное согласие. В некоторых условиях модели являются «сверхчеловеческими» - они лучше предсказывают модальные человеческие суждения, чем средний человек. Все модели получают выгоду от цепочки рассуждений. Это говорит о том, что базовые модели приобрели понимание эмоций, подобное человеческому, и их влияния на убеждения и поведение.
Неявное нейронное представление (INR), использующее нейронную сеть для преобразования координатного ввода в соответствующие атрибуты, в последнее время привело к значительным прорывам в нескольких областях, связанных с зрением. Однако производительность INR сильно зависит от выбора нелинейной функции активации, используемой в его многослойной перцептронной (MLP) архитектуре. Было исследовано несколько видов нелинейностей; однако текущие INR сталкиваются с ограничениями в захвате высокочастотных компонентов, различных типов сигналов и решении обратных задач. Мы выявили, что эти проблемы могут быть значительно смягчены путем внедрения парадигменного изменения в INR. Мы обнаружили, что архитектура с обучаемыми активациями в начальных слоях способна представлять мелкие детали в базовых сигналах. Конкретно, мы предлагаем SL^{2}A-INR, гибридную сеть для INR с активационной функцией, обучаемой в одном слое, способствуя эффективности традиционных MLP на основе ReLU. Наш метод продемонстрировал превосходство в различных задачах, включая представление изображений, восстановление 3D-форм, заполнение пропусков, увеличение разрешения одиночного изображения, восстановление КТ и синтез нового вида. Через обширные эксперименты SL^{2}A-INR устанавливает новые стандарты в точности, качестве и скорости сходимости для INR.
Недавний взрыв систем искусственного интеллекта для генерации музыки вызвал множество обеспокоенностей относительно авторских прав на данные, лицензирования музыки у музыкантов и конфликта между открытым исходным кодом и крупными престижными компаниями. Такие проблемы подчеркивают необходимость общедоступных данных о музыке без авторских прав, которых, в частности, не хватает для символьных данных о музыке. Для решения этой проблемы мы представляем PDMX: крупномасштабный набор данных с открытым исходным кодом из более чем 250 тыс. нотных записей в формате MusicXML из собрания нотного форума MuseScore, что делает его, насколько нам известно, крупнейшим доступным набором данных о символьной музыке без авторских прав. PDMX также включает обширное количество тегов и метаданных взаимодействия с пользователями, что позволяет нам эффективно анализировать набор данных и фильтровать высококачественные нотные записи, созданные пользователями. Учитывая дополнительные метаданные, предоставленные нашим процессом сбора данных, мы проводим эксперименты по генерации музыки с несколькими дорожками, оценивая, как различные представительные подмножества PDMX влияют на поведение последующих моделей, и как статистика оценок пользователей может быть использована в качестве эффективной меры качества данных. Примеры можно найти по ссылке https://pnlong.github.io/PDMX.demo/.
Неявные нейронные представления (INR) используют нейронные сети для обеспечения непрерывных и независимых от разрешения представлений сложных сигналов с небольшим количеством параметров. Однако существующие модели INR часто не удается захватить важные частотные компоненты, специфичные для каждой задачи. Для решения этой проблемы в данной статье мы предлагаем сеть Фурье-Колмогорова-Арнольда (FKAN) для INR. Предложенная FKAN использует обучаемые функции активации, моделируемые в виде рядов Фурье в первом слое, чтобы эффективно контролировать и изучать частотные компоненты, специфичные для задачи. Кроме того, функции активации с обучаемыми коэффициентами Фурье улучшают способность сети захватывать сложные узоры и детали, что полезно для данных высокого разрешения и высокой размерности. Экспериментальные результаты показывают, что наша предложенная модель FKAN превосходит три современных базовых схемы и улучшает отношение сигнал-шум (PSNR) и структурный индекс сходства (SSIM) для задачи представления изображения, а также пересечение по объединению (IoU) для задачи представления объема 3D-занятости, соответственно.