Ежедневно отобранные исследовательские статьи по ИИ с переводами
Пока модели текст-в-изображение, такие как DALLE-3 и Stable Diffusion, быстро распространяются, они часто сталкиваются с вызовами, такими как галлюцинации, предвзятость и создание небезопасного, низкокачественного вывода. Для эффективного решения этих проблем критически важно согласовать эти модели с желаемыми поведенческими характеристиками на основе обратной связи от мультимодального судьи. Несмотря на их значимость, текущие мультимодальные судьи часто подвергаются недостаточной оценке своих возможностей и ограничений, что потенциально может привести к несогласованности и небезопасным результатам настройки. Для решения этой проблемы мы представляем MJ-Bench, новый бенчмарк, который включает в себя комплексный набор данных предпочтений для оценки мультимодальных судей в предоставлении обратной связи для моделей генерации изображений с четырех ключевых точек зрения: согласованность, безопасность, качество изображения и предвзятость. В частности, мы оцениваем большое разнообразие мультимодальных судей, включая модели оценки на основе CLIP меньшего размера, открытые VLM (например, семейство LLaVA) и закрытые VLM (например, GPT-4o, Claude 3) на каждой декомпозированной подкатегории нашего набора данных предпочтений. Эксперименты показывают, что закрытые VLM обычно предоставляют лучшую обратную связь, причем GPT-4o превосходит других судей в среднем. По сравнению с открытыми VLM, модели оценки меньшего размера могут предоставлять лучшую обратную связь относительно согласования текста и изображения и качества изображения, в то время как VLM могут предоставлять более точную обратную связь относительно безопасности и предвзятости генерации из-за их более сильных способностей к рассуждению. Дальнейшие исследования в масштабе обратной связи показывают, что судьи VLM обычно могут предоставлять более точную и стабильную обратную связь на естественном языке (шкала Ликерта) по сравнению с числовыми шкалами. Значительно, человеческие оценки на моделях, донастроенных от начала и до конца с использованием отдельной обратной связи от этих мультимодальных судей, приходят к подобным выводам, дополнительно подтверждая эффективность MJ-Bench. Все данные, коды, модели доступны по адресу https://huggingface.co/MJ-Bench.
Большие языковые модели (LLM) демонстрируют выдающиеся возможности в области перевода в задачах на языках с высокими ресурсами, однако их производительность на языках с низкими ресурсами затруднена из-за недостаточного мультиязычного объема данных во время предварительного обучения. Для решения этой проблемы мы выделяем 35 000 часов GPU A100-SXM4-80GB на проведение обширного мультиязычного непрерывного предварительного обучения на моделях серии LLaMA, обеспечивая поддержку перевода более чем на 100 языках. Через комплексный анализ стратегий обучения, таких как расширение словаря и аугментация данных, мы разрабатываем LLaMAX. Заметно, не жертвуя своей обобщающей способностью, LLaMAX достигает значительно более высокой производительности перевода по сравнению с существующими открытыми LLM (более чем на 10 пунктов spBLEU) и работает на уровне специализированной модели перевода (M2M-100-12B) по показателям Flores-101. Обширные эксперименты показывают, что LLaMAX может служить надежной мультиязычной базовой моделью. Код \url{https://github.com/CONE-MT/LLaMAX/.} и модели \url{https://huggingface.co/LLaMAX/.} доступны публично.
Данная статья рассматривает проблему создания нейронной архитектуры для обработки очень длинных последовательностей, требующей постоянного времени для обработки новой информации на каждом временном шаге. Наш подход, Ассоциативный Рекуррентный Памятный Трансформер (ARMT), основан на самовнимании трансформера для локального контекста и рекуррентности на уровне сегментов для хранения информации, специфичной для задачи, распределенной по длинному контексту. Мы демонстрируем, что ARMT превосходит существующие альтернативы в задачах ассоциативного поиска и устанавливает новый рекорд производительности в недавнем многофункциональном длинноконтекстном бенчмарке BABILong, отвечая на вопросы с одним фактом более чем на 50 миллионов токенов с точностью 79,9%. Исходный код для обучения и оценки доступен на github.
Модель редактирования изображений должна иметь возможность выполнять разнообразные правки, включая замену объектов, изменение атрибутов или стиля, а также выполнение действий или движений, требующих различных форм рассуждений. У текущих общих моделей редактирования с инструкциями есть значительные недостатки в отношении действий и рассуждений. Изменения объектов, атрибутов или стиля могут быть изучены на основе визуально статических наборов данных. С другой стороны, качественные данные для редактирования, ориентированного на действия и рассуждения, являются редкими и должны поступать из совершенно разных источников, охватывающих, например, физическую динамику, временные и пространственные рассуждения. Для этой цели мы тщательно подбираем набор данных AURORA (Action-Reasoning-Object-Attribute), коллекцию высококачественных обучающих данных, аннотированных и отобранных людьми из видео и симуляционных движков. Мы сосредотачиваемся на ключевом аспекте качественных обучающих данных: тройки (исходное изображение, подсказка, целевое изображение) содержат одно смысловое визуальное изменение, описанное в подсказке, то есть действительно минимальные изменения между исходным и целевым изображениями. Для демонстрации ценности нашего набора данных мы оцениваем модель, дообученную на AURORA, на новом экспертно отобранном бенчмарке (AURORA-Bench), охватывающем 8 разнообразных задач редактирования. Наша модель значительно превосходит предыдущие модели редактирования по мнению человеческих оценщиков. Для автоматических оценок мы выявляем важные недостатки в предыдущих метриках и предостерегаем от их использования для семантически сложных задач редактирования. Вместо этого мы предлагаем новую автоматическую метрику, сосредотачивающуюся на дискриминирующем понимании. Мы надеемся, что наши усилия: (1) отбор качественного обучающего набора данных и оценочного бенчмарка, (2) разработка критических оценок и (3) выпуск современной модели, стимулируют дальнейший прогресс в области общего редактирования изображений.
Предыдущие многофункциональные модели с открытым исходным кодом (LMM) сталкивались с несколькими ограничениями: (1) часто отсутствует нативная интеграция, требуя адаптеров для согласования визуальных представлений с предварительно обученными крупными языковыми моделями (LLM); (2) многие ограничены генерацией в одном модальном режиме; (3) хотя некоторые поддерживают многофункциональную генерацию, они полагаются на отдельные модели диффузии для визуального моделирования и генерации. Для устранения этих ограничений мы представляем Anole, открытую авторегрессионную многофункциональную модель для переплетенной генерации изображений и текста. Мы создали Anole на основе Chameleon от Meta AI, применяя инновационную стратегию дообучения, которая является как эффективной с точки зрения данных, так и параметров. Anole демонстрирует высококачественные, последовательные возможности многофункциональной генерации. Мы предоставили нашу модель с открытым исходным кодом, обучающий фреймворк и данные для настройки инструкций.
Большие языковые модели широко используются в реальных приложениях, часто задействованы в рассуждениях над большими объемами документов. Захватывающим развитием в этой области являются модели, обладающие расширенными возможностями контекста, некоторые из них способны работать с более чем 2 миллионами токенов. Такие возможности моделей с длинным контекстом остаются неопределенными в системах производства, что мотивирует необходимость оценки их производительности на реальных кейсах использования. Мы решаем эту проблему, предлагая SWiM, фреймворк оценки, который учитывает ограничения стандартных тестов. Проведя тестирование фреймворка на восьми моделях с длинным контекстом, мы обнаружили, что даже сильные модели, такие как GPT-4 и Claude 3 Opus, теряют в производительности, когда информация находится в середине окна контекста (эффект потери в середине). Кроме того, помимо нашего бенчмарка, мы предлагаем медианный голосовой подход, простой, но эффективный метод обучения без тренировки, который помогает уменьшить этот эффект, генерируя ответы несколько раз, каждый раз случайным образом переставляя документы в контексте и выбирая медианный ответ. Мы оцениваем медианный голосовой подход на задачах вопросов-ответов по одному документу, достигая повышения точности до 24%.
Этот документ представляет UltraEdit, крупномасштабный (приблизительно 4 миллиона образцов редактирования), автоматически сгенерированный набор данных для редактирования изображений на основе инструкций. Наша ключевая идея заключается в устранении недостатков существующих наборов данных для редактирования изображений, таких как InstructPix2Pix и MagicBrush, и предоставлении системного подхода к созданию массовых и высококачественных образцов редактирования изображений. UltraEdit предлагает несколько явных преимуществ: 1) Он представляет более широкий спектр редактирования инструкций, используя креативность крупных языковых моделей (LLM) наряду с примерами редактирования в контексте от человеческих оценщиков; 2) Его источники данных основаны на реальных изображениях, включая фотографии и произведения искусства, что обеспечивает большее разнообразие и снижение предвзятости по сравнению с наборами данных, созданными исключительно моделями текст-в-изображение; 3) Он также поддерживает редактирование на основе областей, улучшенное высококачественными, автоматически созданными аннотациями областей. Наши эксперименты показывают, что канонические базовые линии редактирования на основе диффузии, обученные на наборе данных UltraEdit, устанавливают новые рекорды на бенчмарках MagicBrush и Emu-Edit. Наш анализ дополнительно подтверждает важную роль реальных изображений-якорей и данных редактирования на основе областей. Набор данных, код и модели можно найти на https://ultra-editing.github.io.
Недавние достижения в области 3D автоматического создания объектов показали перспективу непосредственного создания 3D объектов из текста и изображений, что предлагает значительные экономические выгоды в анимации и дизайне продуктов. Однако детальное редактирование и настройка 3D ресурсов остаются давней проблемой. В частности, методы генерации 3D не обладают способностью следовать тонким деталям инструкций так же точно, как их аналоги для создания 2D изображений. Представьте, что вы можете получить игрушку через 3D автоматическое создание объектов, но с нежелательными аксессуарами и одеждой. Для решения этой проблемы мы предлагаем новый конвейер под названием Tailor3D, который быстро создает настраиваемые 3D ресурсы из редактируемых двусторонних изображений. Мы стремимся эмулировать способность портного локально изменять объекты или выполнять общую стилизацию. В отличие от создания 3D ресурсов из нескольких видов, использование двусторонних изображений исключает конфликты на перекрывающихся областях, которые возникают при редактировании отдельных видов. Конкретно, процесс начинается с редактирования переднего вида, затем генерируется задний вид объекта через многовидовую диффузию. Затем происходит редактирование задних видов. Наконец, предлагается двусторонняя модель с ограниченной памятью (LRM), которая бесшовно соединяет передние и задние 3D характеристики, подобно портному, сшивающему переднюю и заднюю части одежды. Двусторонняя LRM исправляет несовершенные несоответствия между передними и задними видами, улучшая возможности редактирования и снижая нагрузку на память, обеспечивая их бесшовное интегрирование в единую 3D модель с помощью трансформера LoRA Triplane. Экспериментальные результаты демонстрируют эффективность Tailor3D в различных задачах генерации и редактирования 3D, включая 3D генеративное заполнение и стилизацию. Он предоставляет удобное для пользователя, эффективное решение для редактирования 3D ресурсов, причем каждый шаг редактирования занимает всего несколько секунд.
Недавние достижения в области открытых моделей языка с большим объемом кода (LLM) продемонстрировали выдающиеся способности к программированию путем настройки на данных, сгенерированных мощными закрытыми моделями LLM, такими как GPT-3.5 и GPT-4 для настройки инструкций. В данной статье исследуется, как дальше улучшить LLM для кода, настроенного на инструкции, путем генерации данных из самого себя, а не путем запросов к закрытым моделям LLM. Нашим ключевым наблюдением является несоответствие между переводом формальных и неформальных языков: перевод формального языка (т.е. кода) на неформальный язык (т.е. естественный язык) проще, чем наоборот. Основываясь на этом наблюдении, мы предлагаем INVERSE-INSTRUCT, который резюмирует инструкции из фрагментов кода вместо обратного. Конкретно, имея корпус настройки инструкций для кода и полученный настроенный на инструкции LLM для кода, мы просим LLM для кода сгенерировать дополнительные инструкции высокого качества для исходного корпуса путем суммирования кода и самооценки. Затем мы настраиваем базовый LLM на комбинации исходного корпуса и самосгенерированного, что приводит к более сильному LLM, настроенному на инструкции. Мы представляем серию моделей LLM для кода под названием InverseCoder, которые превосходят производительность исходных моделей LLM для кода на широком спектре бенчмарков, включая генерацию кода на Python из текста, многоязычное программирование и генерацию кода для науки о данных.
Модели диффузии текста в видео (T2V) крупного масштаба недавно продемонстрировали беспрецедентную способность преобразовывать описания естественного языка в потрясающие и фотореалистичные видеоролики. Несмотря на обнадеживающие результаты, остается значительное препятствие: эти модели испытывают трудности в полном понимании сложных композиционных взаимодействий между несколькими концепциями и действиями. Эта проблема возникает, когда некоторые слова доминируют в конечном видеоролике, затмевая другие концепции. Для решения этой проблемы мы представляем Vico, общий фреймворк для композиционного создания видео, который явно гарантирует правильное представление всех концепций. В основе Vico анализирует, как входные токены влияют на созданное видео, и корректирует модель, чтобы предотвратить доминирование какой-либо одной концепции. Конкретно, Vico извлекает веса внимания из всех слоев для построения пространственно-временного графа внимания, а затем оценивает влияние как максимальный поток от исходного текстового токена к целевому токену видео. Хотя прямое вычисление потока внимания в моделях диффузии обычно невозможно, мы разрабатываем эффективное приближение на основе потоков подграфов и используем быструю и векторизованную реализацию, что в свою очередь делает вычисление потока управляемым и дифференцируемым. Обновляя шумный латент для балансировки этих потоков, Vico захватывает сложные взаимодействия и, следовательно, производит видеоролики, которые тесно соответствуют текстовым описаниям. Мы применяем наш метод к нескольким моделям видео на основе диффузии для композиционного T2V и редактирования видео. Эмпирические результаты демонстрируют, что наш фреймворк значительно улучшает композиционное богатство и точность созданных видеороликов. Посетите наш веб-сайт по адресу https://adamdad.github.io/vico/.
Большие модели языка для компьютерного зрения (LVLM) часто страдают от галлюцинаций объектов, создавая объекты, которых нет на предоставленных изображениях. В то время как текущие бенчмарки для галлюцинаций объектов в основном сосредотачиваются на наличии отдельного класса объектов, а не отдельных сущностей, данная работа систематически исследует множественные галлюцинации объектов, изучая, как модели неправильно воспринимают (например, изобретают несуществующие объекты или отвлекаются), когда им поручают сосредоточиться на нескольких объектах одновременно. Мы представляем Recognition-based Object Probing Evaluation (ROPE), автоматизированный протокол оценки, который учитывает распределение классов объектов в одном изображении во время тестирования и использует визуальные указания для исключения неоднозначности. Проведя обширные эмпирические исследования и анализ потенциальных факторов, приводящих к множественным галлюцинациям объектов, мы обнаружили, что (1) LVLM чаще страдают от галлюцинаций при сосредоточении на нескольких объектах по сравнению с одним объектом. (2) Распределение классов тестируемых объектов влияет на поведение галлюцинаций, указывая на то, что LVLM могут использовать упрощения и случайные корреляции. (3) Галлюцинаторное поведение подвержено влиянию факторов, специфичных для данных, выразительности и частоты, а также внутренних характеристик модели. Мы надеемся, что сможем обучить LVLM распознавать и рассуждать о нескольких объектах, которые часто встречаются в реалистичных визуальных сценах, предоставить понимание и количественно оценить наши успехи в устранении проблем.
В последние годы взлет популярности Больших Языковых Моделей (БЯМ) стимулировал растущий спрос на системы искусственного интеллекта "включи и играй". Среди различных техник искусственного интеллекта выделяется инженерия подсказок как особенно значимая. Однако пользователи часто сталкиваются с трудностями в написании подсказок из-за крутого кривого обучения и значительных временных затрат, а существующие модели автоматической инженерии подсказок (АИП) могут быть сложны в использовании. Для решения этой проблемы мы предлагаем PAS, систему автоматической инженерии подсказок на основе БЯМ "включи и играй". PAS использует БЯМ, обученные на высококачественных, автоматически сгенерированных наборах данных, дополняющих подсказки, что приводит к исключительной производительности. В комплексных тестах PAS достигает результатов, соответствующих последнему слову техники (SoTA) по сравнению с предыдущими моделями АИП, с средним улучшением в 6,09 пункта. Более того, PAS является высокоэффективной, достигая SoTA производительности всего с 9000 точек данных. Кроме того, PAS может автономно генерировать данные для увеличения подсказок без дополнительного человеческого труда. Его гибкость также позволяет ему быть совместимым со всеми существующими БЯМ и применимым к широкому спектру задач. PAS выделяется в человеческих оценках, подчеркивая его пригодность в качестве плагина для пользователей. Это сочетание высокой производительности, эффективности и гибкости делает PAS ценной системой для улучшения удобства и эффективности БЯМ через улучшенную инженерию подсказок.
Один из наиболее надежных способов создания моделей, готовых к развертыванию для специализированных задач, заключается в получении достаточного количества высококачественных данных, специфичных для задачи. Однако для специализированных задач такие наборы данных часто отсутствуют. Существующие методы решают эту проблему, создавая такие данные на основе больших языковых моделей (LLM) и затем конденсируя этот опыт в более компактные модели. Однако эти методы ограничены качеством вывода LLM и часто порождают повторяющиеся или неверные данные. В данной работе мы представляем метод Retrieval Based Distillation (ReBase), который сначала извлекает данные из богатых онлайн-источников, а затем преобразует их в данные, специфичные для области. Этот метод значительно повышает разнообразие данных. Более того, ReBase генерирует цепочку логических рассуждений и конденсирует способность к рассуждениям LLM. Мы тестируем наш метод на 4 стандартных наборах данных, и результаты показывают, что наш метод значительно улучшает производительность на 7.8% на SQuAD, 1.37% на MNLI и 1.94% на BigBench-Hard.
Недавние исследования предполагают, что индуктивный байес глубоких моделей к облегчению более простых характеристик может быть одним из источников обучения по сокращенному пути. Тем не менее, внимание уделялось ограниченно пониманию сложности множества характеристик, которые изучают модели. В данной работе мы представляем новую метрику для количественной оценки сложности характеристик, основанную на V-информации и определяющую, требуют ли характеристики сложных вычислительных преобразований для извлечения. Используя эту метрику V-информации, мы анализируем сложности 10 000 характеристик, представленных как направления в предпоследнем слое, которые были извлечены из стандартной модели зрения, обученной на ImageNet. Наше исследование рассматривает четыре ключевых вопроса: Во-первых, мы спрашиваем, какими являются характеристики в зависимости от сложности и обнаруживаем спектр от простых до сложных характеристик, присутствующих в модели. Во-вторых, мы исследуем, когда характеристики изучаются во время обучения. Мы обнаруживаем, что более простые характеристики преобладают в начале обучения, а более сложные характеристики постепенно появляются. В-третьих, мы исследуем, куда в сети направляются простые и сложные характеристики, и обнаруживаем, что более простые характеристики имеют тенденцию обходить визуальную иерархию через остаточные соединения. В-четвертых, мы исследуем связь между сложностью характеристик и их важностью для принятия решений сетью. Мы обнаруживаем, что сложные характеристики имеют тенденцию быть менее важными. Удивительно, важные характеристики становятся доступными на более ранних слоях во время обучения, подобно процессу осаждения, позволяя модели строить на этих основных элементах.
Эта статья продвигает творческий контроль в генеративном визуальном ИИ, позволяя пользователям "выбирать". Отходя от традиционных методов на основе текста или эскизов, мы впервые позволяем пользователям выбирать визуальные концепции по частям для их творческих усилий. Результатом является генерация с тонкой детализацией, которая точно передает выбранные визуальные концепции, обеспечивая целостный и правдоподобный результат. Для достижения этого мы сначала разбиваем объекты на части через кластеризацию признаков без учителя. Затем мы кодируем части в текстовые токены и вводим потерю нормализованного внимания на основе энтропии, которая на них действует. Этот дизайн потерь позволяет нашей модели изучить общие знания о топологии объекта и его частях, а также обобщить на новые комбинации частей, чтобы генерация выглядела целостно правдоподобной. Наконец, мы используем кодировщик с узким местом для проекции токенов частей. Это не только повышает достоверность, но и ускоряет обучение, используя общие знания и облегчая обмен информацией между экземплярами. Визуальные результаты в статье и дополнительном материале демонстрируют убедительную силу PartCraft в создании высококастомизированных инноваций, олицетворенных "очаровательными" и творческими птицами. Код доступен по ссылке https://github.com/kamwoh/partcraft.
Модели сущностной связи (Entity Linking, EL) хорошо обучены отображать упоминания на соответствующие сущности в заданном контексте. Однако модели EL испытывают затруднения в дизамбигуации малоизвестных сущностей из-за ограниченных данных обучения. В то же время крупные языковые модели (Large Language Models, LLMs) более устойчивы к интерпретации необычных упоминаний. Однако из-за отсутствия специализированного обучения LLMs сталкиваются с проблемой генерации правильных идентификаторов сущностей. Кроме того, обучение LLM для выполнения EL требует значительных затрат. Исходя из этих наблюдений, мы представляем LLMAEL (Large Language Model-Augmented Entity Linking) - гибкое решение для улучшения сущностной связи путем аугментации данных LLM. Мы используем LLM в качестве экспертов по контексту, генерируя описания, сосредоточенные на упоминаниях, в качестве дополнительного входа, сохраняя традиционные модели EL для обработки конкретных задач. Эксперименты на 6 стандартных наборах данных показывают, что базовая LLMAEL превосходит базовые модели EL в большинстве случаев, в то время как настроенная LLMAEL устанавливает новые передовые результаты на всех 6 показателях.
Большие языковые модели (LLM) проявляют галлюцинации в задачах долгих ответов на вопросы в различных областях и широких приложениях. Существующие наборы данных для обнаружения и уменьшения галлюцинаций ограничены областями и размерами, что затрудняет их масштабирование из-за высоких трудозатрат и недостаточной надежности существующих аннотаторов галлюцинаций. Для обеспечения масштабируемого контроля за галлюцинациями в LLM, в данной статье представлена итеративная самообучающаяся структура, которая одновременно и постепенно увеличивает набор данных с аннотациями галлюцинаций и повышает точность аннотатора галлюцинаций. Основываясь на алгоритме Expectation Maximization (EM), в каждой итерации структура сначала применяет конвейер аннотации галлюцинаций для аннотации масштабированного набора данных, а затем обучает более точного аннотатора галлюцинаций на этом наборе данных. Этот новый аннотатор галлюцинаций принимается в конвейере аннотации галлюцинаций, используемом для следующей итерации. Обширные экспериментальные результаты показывают, что наконец полученный аннотатор галлюцинаций с всего лишь 7 миллиардами параметров превосходит производительность GPT-4 и достигает новых передовых результатов обнаружения галлюцинаций на HaluEval и HalluQA с помощью нулевого вывода. Такой аннотатор может не только оценивать уровни галлюцинаций различных LLM на крупномасштабном наборе данных, но и помогать уменьшать галлюцинации в генерациях LLM, с метрикой Natural Language Inference (NLI), увеличивающейся с 25% до 37% на HaluEval.