Ежедневно отобранные исследовательские статьи по ИИ с переводами
Эффективное донастройка является важным для адаптации крупных языковых моделей (КЯМ) к последующим задачам. Однако для реализации этих методов на различных моделях требуются значительные усилия. Мы представляем LlamaFactory, унифицированную платформу, которая интегрирует набор передовых методов эффективного обучения. Она позволяет пользователям гибко настраивать донастройку более чем 100 КЯМ без необходимости программирования с помощью встроенного веб-интерфейса LlamaBoard. Мы эмпирически подтверждаем эффективность и эффективность нашей платформы на задачах языкового моделирования и генерации текста. Она была выпущена по адресу https://github.com/hiyouga/LLaMA-Factory и уже получила более 13 000 звездочек и 1 600 форков.
Сора - первая крупномасштабная обобщенная модель генерации видео, которая привлекла значительное внимание общества. С момента ее запуска OpenAI в феврале 2024 года ни одна другая модель генерации видео не смогла повторить производительность {Sora} или ее способность поддерживать широкий спектр задач по генерации видео. Кроме того, опубликовано всего несколько моделей генерации видео, причем большинство из них закрыты для общего доступа. Для заполнения этого пробела в данной статье предлагается новая многоагентная структура Mora, которая включает несколько передовых визуальных искусственных интеллектуальных агентов для воспроизведения обобщенной генерации видео, продемонстрированной Sora. В частности, Mora может использовать несколько визуальных агентов и успешно имитировать возможности генерации видео Sora в различных задачах, таких как (1) генерация видео по тексту, (2) генерация видео изображений с условием текста, (3) расширение созданных видео, (4) редактирование видео по видео, (5) соединение видео и (6) моделирование цифровых миров. Наши обширные экспериментальные результаты показывают, что Mora достигает производительности, близкой к Sora в различных задачах. Однако существует очевидный разрыв в производительности между нашей работой и Sora, когда оценивается в целом. В заключение, мы надеемся, что этот проект сможет указать будущее направление развития генерации видео через совместных искусственных интеллектуальных агентов.
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей. В то время как объединение моделей стало перспективным подходом для разработки LLM из-за его экономической эффективности, в настоящее время он зависит от человеческой интуиции и предметных знаний, что ограничивает его потенциал. Здесь мы предлагаем эволюционный подход, который преодолевает это ограничение, автоматически находя эффективные комбинации разнообразных моделей с открытым исходным кодом, используя их коллективный интеллект без необходимости обширных дополнительных данных для обучения или вычислений. Наш подход работает как в пространстве параметров, так и в пространстве потока данных, позволяя оптимизировать не только веса отдельных моделей. Этот подход даже облегчает объединение моделей между различными областями, создавая модели, такие как японский LLM с математическими способностями. Удивительно, наш японский математический LLM достиг ведущих показателей на различных установленных японских бенчмарках LLM, даже превзойдя модели с значительно большим количеством параметров, несмотря на то, что он не был явно обучен для таких задач. Более того, культурно осознанный японский VLM, созданный с помощью нашего подхода, демонстрирует свою эффективность в описании контента, специфичного для японской культуры, превосходя предыдущие японские VLM. Эта работа не только вносит новые передовые модели в сообщество с открытым исходным кодом, но также представляет новую парадигму для автоматизированного составления моделей, открывая путь к исследованию альтернативных эффективных подходов к разработке базовых моделей.
Мы представляем метод SceneScript, который непосредственно создает полные модели сцен в виде последовательности структурированных языковых команд с использованием авторегрессивного подхода на основе токенов. Наш предложенный способ представления сцены вдохновлен недавними успехами в области трансформеров и языковых моделей с большим количеством параметров и отличается от более традиционных методов, которые обычно описывают сцены как сетки, воксельные сетки, облака точек или поля яркости. Наш метод выводит набор структурированных языковых команд напрямую из закодированных визуальных данных с использованием архитектуры кодировщика-декодировщика языка сцены. Для обучения SceneScript мы создаем и выпускаем крупномасштабный синтетический набор данных под названием Aria Synthetic Environments, состоящий из 100 тыс. качественных внутренних сцен, с фотореалистичными и земляными аннотированными рендерами эгоцентрических прогулок по сцене. Наш метод дает результаты на уровне передовых технологий в оценке архитектурной компоновки и конкурентоспособные результаты в обнаружении 3D объектов. Наконец, мы исследуем преимущество для SceneScript, которое заключается в способности легко адаптироваться к новым командам с помощью простых дополнений к структурированному языку, что мы иллюстрируем для задач, таких как грубая реконструкция частей 3D объектов.
Масштабирование размера моделей компьютерного зрения стало де-факто стандартом для получения более мощных визуальных представлений. В данной работе обсуждается момент, когда более крупные модели компьютерного зрения становятся излишними. Во-первых, мы продемонстрируем мощь Масштабирования на Масштабах (S^2), при котором предварительно обученная и замороженная более маленькая модель компьютерного зрения (например, ViT-B или ViT-L), запущенная на нескольких масштабах изображений, может превзойти более крупные модели (например, ViT-H или ViT-G) в задачах классификации, сегментации, оценки глубины, бенчмарках Мультимодальных LLM (MLLM) и робототехнике. Следует отметить, что S^2 достигает современной производительности в детальном понимании MLLM на бенчмарке V*, превосходя модели, такие как GPT-4V. Мы исследуем условия, при которых S^2 является предпочтительным подходом к масштабированию по сравнению с масштабированием по размеру модели. Хотя более крупные модели имеют преимущество лучшей обобщенности на сложных примерах, мы показываем, что характеристики более крупных моделей компьютерного зрения могут быть хорошо аппроксимированы характеристиками многомасштабных более маленьких моделей. Это подтверждает, что большинство, если не все, представления, полученные текущими крупными предварительно обученными моделями, также могут быть получены из многомасштабных более маленьких моделей. Наши результаты показывают, что многомасштабная более маленькая модель имеет сравнимую емкость обучения с более крупной моделью, и предварительное обучение более маленьких моделей с использованием S^2 может соответствовать или даже превзойти преимущество более крупных моделей. Мы выпустили пакет на Python, который может применять S^2 к любой модели компьютерного зрения одной строкой кода: https://github.com/bfshi/scaling_on_scales.
Использование стабильной диффузии для создания персонализированных портретов стало мощным и значительным инструментом, позволяющим пользователям создавать высококачественные индивидуальные аватары персонажей на основе конкретных запросов. Однако существующие методы персонализации сталкиваются с проблемами, включая настройку во время тестирования, необходимость использования нескольких входных изображений, низкое сохранение идентичности и ограниченное разнообразие в созданных результатах. Для преодоления этих препятствий мы представляем IDAdapter, подход без настройки, который улучшает разнообразие и сохранение идентичности при создании персонализированных изображений из одного изображения лица. IDAdapter интегрирует персонализированное понятие в процесс генерации через комбинацию текстовых и визуальных инъекций и потерю идентичности лица. Во время фазы обучения мы включаем смешанные характеристики из нескольких эталонных изображений конкретной личности для обогащения деталей, связанных с идентичностью, направляя модель на генерацию изображений с более разнообразными стилями, выражениями и углами по сравнению с предыдущими работами. Обширные оценки демонстрируют эффективность нашего метода, достигая как разнообразия, так и сохранения идентичности в созданных изображениях.
Модели вознаграждения (RMs) находятся в центре успешного RLHF для выравнивания предварительно обученных моделей с предпочтениями людей, однако относительно мало исследований, сосредоточенных на оценке этих моделей вознаграждения. Оценка моделей вознаграждения представляет собой возможность понять непрозрачные технологии, используемые для выравнивания языковых моделей, и какие ценности в них закодированы. До настоящего времени существует очень мало описаний возможностей, методов обучения или открытых моделей вознаграждения. В данной статье мы представляем RewardBench, набор данных и кодовую базу для оценки, чтобы улучшить научное понимание моделей вознаграждения. Набор данных RewardBench представляет собой коллекцию троек prompt-win-lose, охватывающих чат, рассуждения и безопасность, для оценки производительности моделей вознаграждения на сложных, структурированных и вне распределения запросах. Мы создали специальные сравнительные наборы данных для RMs, у которых есть тонкие, но проверяемые причины (например, ошибки, неверные факты), почему один ответ должен быть предпочтен другому. На доске лидеров RewardBench мы оцениваем модели вознаграждения, обученные различными методами, такими как прямое обучение MLE классификаторов и неявное моделирование вознаграждения оптимизацией прямых предпочтений (DPO), на различных наборах данных. Мы представляем множество результатов о склонности к отказам, ограничениях рассуждений и недостатках в следовании инструкциям различных моделей вознаграждения для лучшего понимания процесса RLHF.
Недавние достижения указывают на то, что увеличение масштаба Мультимодальных Больших Языковых Моделей (MLLMs) эффективно повышает производительность на последующих мультимодальных задачах. Преобладающая парадигма MLLM, например, LLaVA, преобразует визуальные признаки в токены, похожие на текст, с помощью статического маппера визуального языка, тем самым позволяя статическим LLMs развивать способность понимать визуальную информацию через настройку визуальных инструкций. Хотя это обнадеживающе, стратегия статической настройки, которая подразумевает общие параметры, может ограничивать производительность на различных последующих мультимодальных задачах. Учитывая это, мы представляем HyperLLaVA, который включает адаптивную настройку проектора и параметров LLM, в сочетании с динамическим визуальным экспертом и языковым экспертом соответственно. Эти эксперты происходят из HyperNetworks, которые генерируют адаптивные сдвиги параметров через визуальное и языковое руководство, обеспечивая динамическое моделирование проектора и LLM на двухэтапном обучении. Наши эксперименты показывают, что наше решение значительно превосходит LLaVA на существующих бенчмарках MLLM, включая MME, MMBench, SEED-Bench и LLaVA-Bench. Наш проект доступен по ссылке https://github.com/DCDmllm/HyperLLaVA.
Недавние достижения в синтезе изображений и реальном времени рендеринга позволили достичь фотореалистичного качества при впечатляющей скорости рендеринга. В то время как методы на основе поля радиации достигают передового качества в сложных сценариях, таких как съемка в естественных условиях и масштабные сцены, они часто страдают от чрезмерно высоких вычислительных требований, связанных с объемным рендерингом. Методы на основе гауссовского сплетения, с другой стороны, используют растеризацию и естественным образом достигают реального времени рендеринга, но страдают от хрупких эвристик оптимизации, которые показывают неудовлетворительные результаты на более сложных сценах. В данной работе мы представляем RadSplat, легкий метод для надежного реального времени рендеринга сложных сцен. Наши основные вклады тройные. Во-первых, мы используем поля радиации в качестве априорного и сигнала надзора для оптимизации сцен, представленных точками, что приводит к улучшению качества и более надежной оптимизации. Затем мы разрабатываем новую технику обрезки, снижающую общее количество точек, сохраняя при этом высокое качество, что приводит к более маленьким и компактным представлениям сцен с более быстрыми скоростями вывода. Наконец, мы предлагаем новый подход к фильтрации во время тестирования, который дополнительно ускоряет рендеринг и позволяет масштабироваться до более крупных сцен размером с дом. Мы обнаружили, что наш метод позволяет достичь передового синтеза сложных съемок со скоростью более 900 кадров в секунду.
Модель диффузии долгое время сталкивалась с проблемами масштабируемости и квадратичной сложности, особенно в структурах на основе трансформеров. В данном исследовании мы стремимся использовать возможность моделирования длинных последовательностей в модели пространства состояний под названием Mamba для расширения ее применимости к генерации визуальных данных. Во-первых, мы выявляем критическое упущение в большинстве существующих методов обработки изображений на основе Mamba, а именно отсутствие учета пространственной непрерывности в схеме сканирования Mamba. Во-вторых, опираясь на это открытие, мы представляем простой, готовый к использованию метод без параметров под названием Zigzag Mamba, который превосходит базовые методы на основе Mamba и демонстрирует улучшенную скорость и использование памяти по сравнению с базовыми методами на основе трансформеров. Наконец, мы интегрируем Zigzag Mamba с каркасом стохастического интерполянта для изучения масштабируемости модели на крупномасштабных визуальных наборах данных, таких как FacesHQ 1024 на 1024 и UCF101, MultiModal-CelebA-HQ и MS COCO 256 на 256. Код будет опубликован на https://taohu.me/zigma/
Монокулярная оценка глубины крайне важна для множества последующих задач зрения и приложений. Существующие дискриминативные подходы к этой проблеме ограничены из-за размытых артефактов, в то время как передовые генеративные методы страдают от медленной выборки из-за их природы SDE. Вместо начала с шума, мы ищем прямое отображение из входного изображения в карту глубины. Мы замечаем, что это можно эффективно сформулировать с использованием сопоставления потоков, поскольку их прямые траектории через пространство решений обеспечивают эффективность и высокое качество. Наше исследование демонстрирует, что предварительно обученная модель диффузии изображения может служить адекватным априорным знанием для модели оценки глубины сопоставления потоков, позволяя эффективное обучение только на синтетических данных для обобщения на реальные изображения. Мы обнаружили, что дополнительная потеря поверхностных нормалей дополнительно улучшает оценки глубины. Благодаря генеративной природе нашего подхода, наша модель надежно предсказывает уверенность в своих оценках глубины. На стандартных бенчмарках сложных естественных сцен наш легкий подход демонстрирует передовую производительность при выгодных низких вычислительных затратах, несмотря на то, что обучен только на небольших синтетических данных.
Мы предлагаем генеративную модель, которая, имея грубо отредактированное изображение, синтезирует фотореалистичный результат, следуя предписанному макету. Наш метод передает мелкие детали из оригинального изображения и сохраняет идентичность его частей. Тем не менее, он адаптирует его к освещению и контексту, определенным новым макетом. Нашим ключевым открытием является то, что видео - мощный источник наблюдений для этой задачи: объекты и движения камеры предоставляют множество наблюдений о том, как меняется мир при изменении точки зрения, освещения и физических взаимодействий. Мы создаем набор данных изображений, в котором каждый образец представляет собой пару исходного и целевого кадров, извлеченных из одного и того же видео в случайно выбранные временные интервалы. Мы искажаем исходный кадр в сторону цели, используя две модели движения, имитирующие ожидаемые правки пользователя во время тестирования. Мы обучаем нашу модель переводить искаженное изображение в истину, начиная с предварительно обученной модели диффузии. Наша модель явно обеспечивает передачу мелких деталей из исходного кадра в созданное изображение, тесно следуя указанному пользователем макету. Мы показываем, что, используя простые сегментации и грубые 2D манипуляции, мы можем синтезировать фотореалистичное редактирование, верное вводу пользователя, решая при этом второстепенные эффекты, такие как гармонизация освещения и физических взаимодействий между отредактированными объектами.
Большие языковые модели (LLM) имеют удивительный недостаток: когда они обучаются на фразе "A имеет признак B", они не обобщают это на фразу "B - признак A", что называется Проклятием Реверсии. Даже при обучении с триллионами токенов эта проблема все равно возникает из-за закона Ципфа - поэтому даже если мы обучим модель на всем интернете. В данной работе предлагается альтернативная схема обучения, называемая обратным обучением, при которой все слова используются дважды, удваивая количество доступных токенов. LLM обучается как в прямом, так и в обратном направлении путем разворачивания строк обучения, сохраняя (то есть не разворачивая) выбранные подстроки, такие как сущности. Мы показываем, что модели, обученные обратным образом с учетом данных, обеспечивают более высокую производительность по сравнению со стандартными моделями на стандартных задачах, а модели, обученные обратным образом с учетом вычислений, обеспечивают значительно более высокую производительность на задачах реверсии, что помогает решить проблему Проклятия Реверсии.
Видео-реставрация представляет собой сложную задачу, направленную на генерацию видеоконтента за пределами области видимости входного видео с сохранением межкадровой и внутрикадровой согласованности. Существующие методы либо не обеспечивают достаточного качества генерации, либо гибкости. Мы представляем MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation) - диффузионную платформу, которая использует как внутренние специфические для данных шаблоны исходного видео, так и генеративный приоритет изображений/видео для эффективной реставрации. MOTIA состоит из двух основных фаз: адаптации к конкретному входу и осознанной шаблонной реставрации. Фаза адаптации к конкретному входу включает проведение эффективного и эффективного обучения псевдо-реставрации на односнимковом исходном видео. Этот процесс побуждает модель идентифицировать и изучать шаблоны в исходном видео, а также сокращает разрыв между стандартными генеративными процессами и реставрацией. Следующая фаза, осознанная шаблонная реставрация, посвящена обобщению этих выученных шаблонов для генерации результатов реставрации. Предлагаются дополнительные стратегии, включая пространственно осознанную вставку и передачу шума, для более эффективного использования генеративного приоритета модели диффузии и выученных видеошаблонов из исходных видео. Обширные оценки подчеркивают превосходство MOTIA, превосходящего существующие передовые методы на широко признанных бенчмарках. Заметим, что эти достижения были получены без необходимости проведения обширной, специфичной для задачи настройки.
Несмотря на огромные успехи в области синтеза текста в видео (T2V), модели диффузии T2V с открытым исходным кодом испытывают трудности в создании более длинных видеороликов с динамически изменяющимся и развивающимся контентом. Они часто синтезируют псевдо-статические видео, игнорируя необходимые визуальные изменения со временем, предполагаемые в текстовой подсказке. В то же время масштабирование этих моделей для возможности создания более длинного и динамичного видеосинтеза часто остается вычислительно неразрешимым. Для решения этой проблемы мы представляем концепцию Генеративного Временного Ухода (GTN), где мы стремимся изменять генеративный процесс на лету во время вывода, чтобы улучшить контроль над временной динамикой и обеспечить создание более длинных видеороликов. Мы предлагаем метод для GTN, названный VSTAR, который состоит из двух ключевых компонентов: 1) Подсказка Синопсиса Видео (VSP) - автоматическое создание синопсиса видео на основе оригинальной одиночной подсказки с использованием LLMs, который обеспечивает точное текстовое руководство к различным визуальным состояниям более длинных видеороликов, и 2) Регуляризация Временного Внимания (TAR) - техника регуляризации для уточнения временных блоков внимания предварительно обученных моделей диффузии T2V, которая обеспечивает контроль над динамикой видео. Мы экспериментально демонстрируем превосходство предложенного подхода в создании более длинных, визуально привлекательных видеороликов по сравнению с существующими моделями T2V с открытым исходным кодом. Мы также анализируем карты временного внимания, реализованные с использованием и без использования VSTAR, демонстрируя важность применения нашего метода для уменьшения игнорирования желаемых визуальных изменений со временем.
Языковые модели (LMs) значительно повлияли на различные области. Однако их врожденное ограничение в понимании 3D молекулярных структур значительно сдерживает их потенциал в биомолекулярной области. Для преодоления этого разрыва мы сосредотачиваемся на интерпретации 3D молекулы-текста и предлагаем 3D-MoLM: 3D-Молекулярное Языковое Моделирование. Конкретно, 3D-MoLM позволяет LM интерпретировать и анализировать 3D молекулы, оснащая LM 3D молекулярным кодировщиком. Эта интеграция достигается с помощью 3D молекулярного текстового проектора, соединяющего пространство представления 3D молекулярного кодировщика и пространство ввода LM. Более того, для улучшения способности 3D-MoLM к кросс-модальному пониманию молекул и следованию инструкциям, мы тщательно подготовили набор данных для настройки инструкций, сосредоточенный на 3D молекулах - 3D-MoIT. Через выравнивание 3D молекула-текст и настройку инструкций, сосредоточенных на 3D молекулах, 3D-MoLM устанавливает интеграцию 3D молекулярного кодировщика и LM. Он значительно превосходит существующие базовые уровни на последующих задачах, включая поиск молекул-текста, подписывание молекул и более сложные задачи открытого текстового вопросно-ответного тестирования молекул, особенно с учетом 3D-зависимых свойств.
Генерация трехмерных объектов претерпела значительные усовершенствования, однако эффективное создание высококачественных трехмерных ресурсов из одного изображения остается сложной задачей. В данной статье мы представляем трипланарный автоэнкодер, который кодирует трехмерные модели в компактное трипланарное скрытое пространство для эффективного сжатия как геометрической, так и текстурной информации трехмерных объектов. В рамках автоэнкодера мы вводим механизм кросс-внимания, осведомленный о трехмерном пространстве, который использует низкоразрешенные скрытые представления для запроса признаков из объема признаков трехмерных объектов высокого разрешения, тем самым улучшая емкость представления скрытого пространства. Затем мы обучаем модель диффузии на этом улучшенном скрытом пространстве. В отличие от полного использования встраивания изображения для генерации трехмерных объектов, наш метод предлагает одновременное использование как встраивания изображения, так и встраивания формы в качестве условий. В частности, встраивание формы оценивается с помощью модели диффузии, обусловленной встраиванием изображения. Через обширные эксперименты мы демонстрируем, что наш метод превосходит современные алгоритмы, достигая высокой производительности при этом требуя меньше обучающих данных и времени. Наш подход позволяет генерировать высококачественные трехмерные объекты всего за 7 секунд на одном графическом процессоре A100.
Для понимания рисков, которые несет новая система искусственного интеллекта, необходимо понять, что она может и не может делать. На основе предыдущих работ мы представляем программу оценки новых "опасных возможностей" и проводим их пилотное тестирование на моделях Gemini 1.0. Наши оценки охватывают четыре области: (1) убеждение и обман; (2) кибербезопасность; (3) самораспространение; и (4) саморассуждение. Мы не обнаружили убедительных опасных возможностей в оцененных моделях, но выявили ранние предупреждающие сигналы. Наша цель - способствовать развитию строгой науки оценки опасных возможностей в подготовке к будущим моделям.