HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

17 papers found

MJ-Bench: Действительно ли ваш мультимодальная модель вознаграждения является хорошим судьей для генерации текста в изображение?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Jul 5

ByZhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao

Пока модели текст-в-изображение, такие как DALLE-3 и Stable Diffusion, быстро распространяются, они часто сталкиваются с вызовами, такими как галлюцинации, предвзятость и создание небезопасного, низкокачественного вывода. Для эффективного решения этих проблем критически важно согласовать эти модели с желаемыми поведенческими характеристиками на основе обратной связи от мультимодального судьи. Несмотря на их значимость, текущие мультимодальные судьи часто подвергаются недостаточной оценке своих возможностей и ограничений, что потенциально может привести к несогласованности и небезопасным результатам настройки. Для решения этой проблемы мы представляем MJ-Bench, новый бенчмарк, который включает в себя комплексный набор данных предпочтений для оценки мультимодальных судей в предоставлении обратной связи для моделей генерации изображений с четырех ключевых точек зрения: согласованность, безопасность, качество изображения и предвзятость. В частности, мы оцениваем большое разнообразие мультимодальных судей, включая модели оценки на основе CLIP меньшего размера, открытые VLM (например, семейство LLaVA) и закрытые VLM (например, GPT-4o, Claude 3) на каждой декомпозированной подкатегории нашего набора данных предпочтений. Эксперименты показывают, что закрытые VLM обычно предоставляют лучшую обратную связь, причем GPT-4o превосходит других судей в среднем. По сравнению с открытыми VLM, модели оценки меньшего размера могут предоставлять лучшую обратную связь относительно согласования текста и изображения и качества изображения, в то время как VLM могут предоставлять более точную обратную связь относительно безопасности и предвзятости генерации из-за их более сильных способностей к рассуждению. Дальнейшие исследования в масштабе обратной связи показывают, что судьи VLM обычно могут предоставлять более точную и стабильную обратную связь на естественном языке (шкала Ликерта) по сравнению с числовыми шкалами. Значительно, человеческие оценки на моделях, донастроенных от начала и до конца с использованием отдельной обратной связи от этих мультимодальных судей, приходят к подобным выводам, дополнительно подтверждая эффективность MJ-Bench. Все данные, коды, модели доступны по адресу https://huggingface.co/MJ-Bench.

LLaMAX: Расширение лингвистических горизонтов LLM путем улучшения возможностей перевода за пределами 100 языков
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Jul 8

ByYinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan

Большие языковые модели (LLM) демонстрируют выдающиеся возможности в области перевода в задачах на языках с высокими ресурсами, однако их производительность на языках с низкими ресурсами затруднена из-за недостаточного мультиязычного объема данных во время предварительного обучения. Для решения этой проблемы мы выделяем 35 000 часов GPU A100-SXM4-80GB на проведение обширного мультиязычного непрерывного предварительного обучения на моделях серии LLaMA, обеспечивая поддержку перевода более чем на 100 языках. Через комплексный анализ стратегий обучения, таких как расширение словаря и аугментация данных, мы разрабатываем LLaMAX. Заметно, не жертвуя своей обобщающей способностью, LLaMAX достигает значительно более высокой производительности перевода по сравнению с существующими открытыми LLM (более чем на 10 пунктов spBLEU) и работает на уровне специализированной модели перевода (M2M-100-12B) по показателям Flores-101. Обширные эксперименты показывают, что LLaMAX может служить надежной мультиязычной базовой моделью. Код \url{https://github.com/CONE-MT/LLaMAX/.} и модели \url{https://huggingface.co/LLaMAX/.} доступны публично.

Ассоциативный Рекуррентный Памятный Трансформер
Associative Recurrent Memory Transformer

Jul 5

ByIvan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev

Данная статья рассматривает проблему создания нейронной архитектуры для обработки очень длинных последовательностей, требующей постоянного времени для обработки новой информации на каждом временном шаге. Наш подход, Ассоциативный Рекуррентный Памятный Трансформер (ARMT), основан на самовнимании трансформера для локального контекста и рекуррентности на уровне сегментов для хранения информации, специфичной для задачи, распределенной по длинному контексту. Мы демонстрируем, что ARMT превосходит существующие альтернативы в задачах ассоциативного поиска и устанавливает новый рекорд производительности в недавнем многофункциональном длинноконтекстном бенчмарке BABILong, отвечая на вопросы с одним фактом более чем на 50 миллионов токенов с точностью 79,9%. Исходный код для обучения и оценки доступен на github.

Обучение редактированию изображений, сосредоточенное на действиях и рассуждениях, на основе видео и симуляций
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

Jul 3

ByBenno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy

Модель редактирования изображений должна иметь возможность выполнять разнообразные правки, включая замену объектов, изменение атрибутов или стиля, а также выполнение действий или движений, требующих различных форм рассуждений. У текущих общих моделей редактирования с инструкциями есть значительные недостатки в отношении действий и рассуждений. Изменения объектов, атрибутов или стиля могут быть изучены на основе визуально статических наборов данных. С другой стороны, качественные данные для редактирования, ориентированного на действия и рассуждения, являются редкими и должны поступать из совершенно разных источников, охватывающих, например, физическую динамику, временные и пространственные рассуждения. Для этой цели мы тщательно подбираем набор данных AURORA (Action-Reasoning-Object-Attribute), коллекцию высококачественных обучающих данных, аннотированных и отобранных людьми из видео и симуляционных движков. Мы сосредотачиваемся на ключевом аспекте качественных обучающих данных: тройки (исходное изображение, подсказка, целевое изображение) содержат одно смысловое визуальное изменение, описанное в подсказке, то есть действительно минимальные изменения между исходным и целевым изображениями. Для демонстрации ценности нашего набора данных мы оцениваем модель, дообученную на AURORA, на новом экспертно отобранном бенчмарке (AURORA-Bench), охватывающем 8 разнообразных задач редактирования. Наша модель значительно превосходит предыдущие модели редактирования по мнению человеческих оценщиков. Для автоматических оценок мы выявляем важные недостатки в предыдущих метриках и предостерегаем от их использования для семантически сложных задач редактирования. Вместо этого мы предлагаем новую автоматическую метрику, сосредотачивающуюся на дискриминирующем понимании. Мы надеемся, что наши усилия: (1) отбор качественного обучающего набора данных и оценочного бенчмарка, (2) разработка критических оценок и (3) выпуск современной модели, стимулируют дальнейший прогресс в области общего редактирования изображений.

ANOLE: Открытые, авторегрессионные, масштабные мультимодальные модели для генерации изображений и текста.
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

Jul 8

ByEthan Chern, Jiadi Su, Yan Ma, Pengfei Liu

Предыдущие многофункциональные модели с открытым исходным кодом (LMM) сталкивались с несколькими ограничениями: (1) часто отсутствует нативная интеграция, требуя адаптеров для согласования визуальных представлений с предварительно обученными крупными языковыми моделями (LLM); (2) многие ограничены генерацией в одном модальном режиме; (3) хотя некоторые поддерживают многофункциональную генерацию, они полагаются на отдельные модели диффузии для визуального моделирования и генерации. Для устранения этих ограничений мы представляем Anole, открытую авторегрессионную многофункциональную модель для переплетенной генерации изображений и текста. Мы создали Anole на основе Chameleon от Meta AI, применяя инновационную стратегию дообучения, которая является как эффективной с точки зрения данных, так и параметров. Anole демонстрирует высококачественные, последовательные возможности многофункциональной генерации. Мы предоставили нашу модель с открытым исходным кодом, обучающий фреймворк и данные для настройки инструкций.

Оценка контекстных окон языковой модели: тест "рабочей памяти" и коррекция во время вывода
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Jul 4

ByAmanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala

Большие языковые модели широко используются в реальных приложениях, часто задействованы в рассуждениях над большими объемами документов. Захватывающим развитием в этой области являются модели, обладающие расширенными возможностями контекста, некоторые из них способны работать с более чем 2 миллионами токенов. Такие возможности моделей с длинным контекстом остаются неопределенными в системах производства, что мотивирует необходимость оценки их производительности на реальных кейсах использования. Мы решаем эту проблему, предлагая SWiM, фреймворк оценки, который учитывает ограничения стандартных тестов. Проведя тестирование фреймворка на восьми моделях с длинным контекстом, мы обнаружили, что даже сильные модели, такие как GPT-4 и Claude 3 Opus, теряют в производительности, когда информация находится в середине окна контекста (эффект потери в середине). Кроме того, помимо нашего бенчмарка, мы предлагаем медианный голосовой подход, простой, но эффективный метод обучения без тренировки, который помогает уменьшить этот эффект, генерируя ответы несколько раз, каждый раз случайным образом переставляя документы в контексте и выбирая медианный ответ. Мы оцениваем медианный голосовой подход на задачах вопросов-ответов по одному документу, достигая повышения точности до 24%.

UltraEdit: Инструкционное редактирование изображений с мелкой детализацией в масштабе.
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

Jul 7

ByHaozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang

Этот документ представляет UltraEdit, крупномасштабный (приблизительно 4 миллиона образцов редактирования), автоматически сгенерированный набор данных для редактирования изображений на основе инструкций. Наша ключевая идея заключается в устранении недостатков существующих наборов данных для редактирования изображений, таких как InstructPix2Pix и MagicBrush, и предоставлении системного подхода к созданию массовых и высококачественных образцов редактирования изображений. UltraEdit предлагает несколько явных преимуществ: 1) Он представляет более широкий спектр редактирования инструкций, используя креативность крупных языковых моделей (LLM) наряду с примерами редактирования в контексте от человеческих оценщиков; 2) Его источники данных основаны на реальных изображениях, включая фотографии и произведения искусства, что обеспечивает большее разнообразие и снижение предвзятости по сравнению с наборами данных, созданными исключительно моделями текст-в-изображение; 3) Он также поддерживает редактирование на основе областей, улучшенное высококачественными, автоматически созданными аннотациями областей. Наши эксперименты показывают, что канонические базовые линии редактирования на основе диффузии, обученные на наборе данных UltraEdit, устанавливают новые рекорды на бенчмарках MagicBrush и Emu-Edit. Наш анализ дополнительно подтверждает важную роль реальных изображений-якорей и данных редактирования на основе областей. Набор данных, код и модели можно найти на https://ultra-editing.github.io.

Tailor3D: Настройка редактирования и генерации 3D-активов с двусторонними изображениями
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Jul 8

ByZhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao

Недавние достижения в области 3D автоматического создания объектов показали перспективу непосредственного создания 3D объектов из текста и изображений, что предлагает значительные экономические выгоды в анимации и дизайне продуктов. Однако детальное редактирование и настройка 3D ресурсов остаются давней проблемой. В частности, методы генерации 3D не обладают способностью следовать тонким деталям инструкций так же точно, как их аналоги для создания 2D изображений. Представьте, что вы можете получить игрушку через 3D автоматическое создание объектов, но с нежелательными аксессуарами и одеждой. Для решения этой проблемы мы предлагаем новый конвейер под названием Tailor3D, который быстро создает настраиваемые 3D ресурсы из редактируемых двусторонних изображений. Мы стремимся эмулировать способность портного локально изменять объекты или выполнять общую стилизацию. В отличие от создания 3D ресурсов из нескольких видов, использование двусторонних изображений исключает конфликты на перекрывающихся областях, которые возникают при редактировании отдельных видов. Конкретно, процесс начинается с редактирования переднего вида, затем генерируется задний вид объекта через многовидовую диффузию. Затем происходит редактирование задних видов. Наконец, предлагается двусторонняя модель с ограниченной памятью (LRM), которая бесшовно соединяет передние и задние 3D характеристики, подобно портному, сшивающему переднюю и заднюю части одежды. Двусторонняя LRM исправляет несовершенные несоответствия между передними и задними видами, улучшая возможности редактирования и снижая нагрузку на память, обеспечивая их бесшовное интегрирование в единую 3D модель с помощью трансформера LoRA Triplane. Экспериментальные результаты демонстрируют эффективность Tailor3D в различных задачах генерации и редактирования 3D, включая 3D генеративное заполнение и стилизацию. Он предоставляет удобное для пользователя, эффективное решение для редактирования 3D ресурсов, причем каждый шаг редактирования занимает всего несколько секунд.

Генерация видео как композиционное выравнивание потока
Compositional Video Generation as Flow Equalization

Jun 10

ByXingyi Yang, Xinchao Wang

Модели диффузии текста в видео (T2V) крупного масштаба недавно продемонстрировали беспрецедентную способность преобразовывать описания естественного языка в потрясающие и фотореалистичные видеоролики. Несмотря на обнадеживающие результаты, остается значительное препятствие: эти модели испытывают трудности в полном понимании сложных композиционных взаимодействий между несколькими концепциями и действиями. Эта проблема возникает, когда некоторые слова доминируют в конечном видеоролике, затмевая другие концепции. Для решения этой проблемы мы представляем Vico, общий фреймворк для композиционного создания видео, который явно гарантирует правильное представление всех концепций. В основе Vico анализирует, как входные токены влияют на созданное видео, и корректирует модель, чтобы предотвратить доминирование какой-либо одной концепции. Конкретно, Vico извлекает веса внимания из всех слоев для построения пространственно-временного графа внимания, а затем оценивает влияние как максимальный поток от исходного текстового токена к целевому токену видео. Хотя прямое вычисление потока внимания в моделях диффузии обычно невозможно, мы разрабатываем эффективное приближение на основе потоков подграфов и используем быструю и векторизованную реализацию, что в свою очередь делает вычисление потока управляемым и дифференцируемым. Обновляя шумный латент для балансировки этих потоков, Vico захватывает сложные взаимодействия и, следовательно, производит видеоролики, которые тесно соответствуют текстовым описаниям. Мы применяем наш метод к нескольким моделям видео на основе диффузии для композиционного T2V и редактирования видео. Эмпирические результаты демонстрируют, что наш фреймворк значительно улучшает композиционное богатство и точность созданных видеороликов. Посетите наш веб-сайт по адресу https://adamdad.github.io/vico/.

InverseCoder: Разблокирование потенциала инструкционно настроенных языковых моделей кода с помощью Inverse-Instruct
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Jul 8

ByYutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen

Недавние достижения в области открытых моделей языка с большим объемом кода (LLM) продемонстрировали выдающиеся способности к программированию путем настройки на данных, сгенерированных мощными закрытыми моделями LLM, такими как GPT-3.5 и GPT-4 для настройки инструкций. В данной статье исследуется, как дальше улучшить LLM для кода, настроенного на инструкции, путем генерации данных из самого себя, а не путем запросов к закрытым моделям LLM. Нашим ключевым наблюдением является несоответствие между переводом формальных и неформальных языков: перевод формального языка (т.е. кода) на неформальный язык (т.е. естественный язык) проще, чем наоборот. Основываясь на этом наблюдении, мы предлагаем INVERSE-INSTRUCT, который резюмирует инструкции из фрагментов кода вместо обратного. Конкретно, имея корпус настройки инструкций для кода и полученный настроенный на инструкции LLM для кода, мы просим LLM для кода сгенерировать дополнительные инструкции высокого качества для исходного корпуса путем суммирования кода и самооценки. Затем мы настраиваем базовый LLM на комбинации исходного корпуса и самосгенерированного, что приводит к более сильному LLM, настроенному на инструкции. Мы представляем серию моделей LLM для кода под названием InverseCoder, которые превосходят производительность исходных моделей LLM для кода на широком спектре бенчмарков, включая генерацию кода на Python из текста, многоязычное программирование и генерацию кода для науки о данных.

Множественная галлюцинация объектов в моделях видео-языкового восприятия
Multi-Object Hallucination in Vision-Language Models

Jul 8

ByXuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai

Большие модели языка для компьютерного зрения (LVLM) часто страдают от галлюцинаций объектов, создавая объекты, которых нет на предоставленных изображениях. В то время как текущие бенчмарки для галлюцинаций объектов в основном сосредотачиваются на наличии отдельного класса объектов, а не отдельных сущностей, данная работа систематически исследует множественные галлюцинации объектов, изучая, как модели неправильно воспринимают (например, изобретают несуществующие объекты или отвлекаются), когда им поручают сосредоточиться на нескольких объектах одновременно. Мы представляем Recognition-based Object Probing Evaluation (ROPE), автоматизированный протокол оценки, который учитывает распределение классов объектов в одном изображении во время тестирования и использует визуальные указания для исключения неоднозначности. Проведя обширные эмпирические исследования и анализ потенциальных факторов, приводящих к множественным галлюцинациям объектов, мы обнаружили, что (1) LVLM чаще страдают от галлюцинаций при сосредоточении на нескольких объектах по сравнению с одним объектом. (2) Распределение классов тестируемых объектов влияет на поведение галлюцинаций, указывая на то, что LVLM могут использовать упрощения и случайные корреляции. (3) Галлюцинаторное поведение подвержено влиянию факторов, специфичных для данных, выразительности и частоты, а также внутренних характеристик модели. Мы надеемся, что сможем обучить LVLM распознавать и рассуждать о нескольких объектах, которые часто встречаются в реалистичных визуальных сценах, предоставить понимание и количественно оценить наши успехи в устранении проблем.

PAS: Система увеличения запросов Plug-and-Play с эффективным использованием данных
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System

Jul 8

ByMiao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Yozhen Wu, Kun Li, Yanjun Sheng, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou

В последние годы взлет популярности Больших Языковых Моделей (БЯМ) стимулировал растущий спрос на системы искусственного интеллекта "включи и играй". Среди различных техник искусственного интеллекта выделяется инженерия подсказок как особенно значимая. Однако пользователи часто сталкиваются с трудностями в написании подсказок из-за крутого кривого обучения и значительных временных затрат, а существующие модели автоматической инженерии подсказок (АИП) могут быть сложны в использовании. Для решения этой проблемы мы предлагаем PAS, систему автоматической инженерии подсказок на основе БЯМ "включи и играй". PAS использует БЯМ, обученные на высококачественных, автоматически сгенерированных наборах данных, дополняющих подсказки, что приводит к исключительной производительности. В комплексных тестах PAS достигает результатов, соответствующих последнему слову техники (SoTA) по сравнению с предыдущими моделями АИП, с средним улучшением в 6,09 пункта. Более того, PAS является высокоэффективной, достигая SoTA производительности всего с 9000 точек данных. Кроме того, PAS может автономно генерировать данные для увеличения подсказок без дополнительного человеческого труда. Его гибкость также позволяет ему быть совместимым со всеми существующими БЯМ и применимым к широкому спектру задач. PAS выделяется в человеческих оценках, подчеркивая его пригодность в качестве плагина для пользователей. Это сочетание высокой производительности, эффективности и гибкости делает PAS ценной системой для улучшения удобства и эффективности БЯМ через улучшенную инженерию подсказок.

Обучение экспертов по задачам с использованием дистилляции на основе извлечения.
Training Task Experts through Retrieval Based Distillation

Jul 7

ByJiaxin Ge, Xueying Jia, Vijay Viswanathan, Hongyin Luo, Graham Neubig

Один из наиболее надежных способов создания моделей, готовых к развертыванию для специализированных задач, заключается в получении достаточного количества высококачественных данных, специфичных для задачи. Однако для специализированных задач такие наборы данных часто отсутствуют. Существующие методы решают эту проблему, создавая такие данные на основе больших языковых моделей (LLM) и затем конденсируя этот опыт в более компактные модели. Однако эти методы ограничены качеством вывода LLM и часто порождают повторяющиеся или неверные данные. В данной работе мы представляем метод Retrieval Based Distillation (ReBase), который сначала извлекает данные из богатых онлайн-источников, а затем преобразует их в данные, специфичные для области. Этот метод значительно повышает разнообразие данных. Более того, ReBase генерирует цепочку логических рассуждений и конденсирует способность к рассуждениям LLM. Мы тестируем наш метод на 4 стандартных наборах данных, и результаты показывают, что наш метод значительно улучшает производительность на 7.8% на SQuAD, 1.37% на MNLI и 1.94% на BigBench-Hard.

Понимание зависимости от визуальных признаков через призму сложности.
Understanding Visual Feature Reliance through the Lens of Complexity

Jul 8

ByThomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann

Недавние исследования предполагают, что индуктивный байес глубоких моделей к облегчению более простых характеристик может быть одним из источников обучения по сокращенному пути. Тем не менее, внимание уделялось ограниченно пониманию сложности множества характеристик, которые изучают модели. В данной работе мы представляем новую метрику для количественной оценки сложности характеристик, основанную на V-информации и определяющую, требуют ли характеристики сложных вычислительных преобразований для извлечения. Используя эту метрику V-информации, мы анализируем сложности 10 000 характеристик, представленных как направления в предпоследнем слое, которые были извлечены из стандартной модели зрения, обученной на ImageNet. Наше исследование рассматривает четыре ключевых вопроса: Во-первых, мы спрашиваем, какими являются характеристики в зависимости от сложности и обнаруживаем спектр от простых до сложных характеристик, присутствующих в модели. Во-вторых, мы исследуем, когда характеристики изучаются во время обучения. Мы обнаруживаем, что более простые характеристики преобладают в начале обучения, а более сложные характеристики постепенно появляются. В-третьих, мы исследуем, куда в сети направляются простые и сложные характеристики, и обнаруживаем, что более простые характеристики имеют тенденцию обходить визуальную иерархию через остаточные соединения. В-четвертых, мы исследуем связь между сложностью характеристик и их важностью для принятия решений сетью. Мы обнаруживаем, что сложные характеристики имеют тенденцию быть менее важными. Удивительно, важные характеристики становятся доступными на более ранних слоях во время обучения, подобно процессу осаждения, позволяя модели строить на этих основных элементах.

PartCraft: Создание творческих объектов по частям
PartCraft: Crafting Creative Objects by Parts

Jul 5

ByKam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang

Эта статья продвигает творческий контроль в генеративном визуальном ИИ, позволяя пользователям "выбирать". Отходя от традиционных методов на основе текста или эскизов, мы впервые позволяем пользователям выбирать визуальные концепции по частям для их творческих усилий. Результатом является генерация с тонкой детализацией, которая точно передает выбранные визуальные концепции, обеспечивая целостный и правдоподобный результат. Для достижения этого мы сначала разбиваем объекты на части через кластеризацию признаков без учителя. Затем мы кодируем части в текстовые токены и вводим потерю нормализованного внимания на основе энтропии, которая на них действует. Этот дизайн потерь позволяет нашей модели изучить общие знания о топологии объекта и его частях, а также обобщить на новые комбинации частей, чтобы генерация выглядела целостно правдоподобной. Наконец, мы используем кодировщик с узким местом для проекции токенов частей. Это не только повышает достоверность, но и ускоряет обучение, используя общие знания и облегчая обмен информацией между экземплярами. Визуальные результаты в статье и дополнительном материале демонстрируют убедительную силу PartCraft в создании высококастомизированных инноваций, олицетворенных "очаровательными" и творческими птицами. Код доступен по ссылке https://github.com/kamwoh/partcraft.

LLMAEL: Большие языковые модели - хорошие дополнители контекста для сопоставления сущностей.
LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking

Jul 4

ByAmy Xin, Yunjia Qi, Zijun Yao, Fangwei Zhu, Kaisheng Zeng, Xu Bin, Lei Hou, Juanzi Li

Модели сущностной связи (Entity Linking, EL) хорошо обучены отображать упоминания на соответствующие сущности в заданном контексте. Однако модели EL испытывают затруднения в дизамбигуации малоизвестных сущностей из-за ограниченных данных обучения. В то же время крупные языковые модели (Large Language Models, LLMs) более устойчивы к интерпретации необычных упоминаний. Однако из-за отсутствия специализированного обучения LLMs сталкиваются с проблемой генерации правильных идентификаторов сущностей. Кроме того, обучение LLM для выполнения EL требует значительных затрат. Исходя из этих наблюдений, мы представляем LLMAEL (Large Language Model-Augmented Entity Linking) - гибкое решение для улучшения сущностной связи путем аугментации данных LLM. Мы используем LLM в качестве экспертов по контексту, генерируя описания, сосредоточенные на упоминаниях, в качестве дополнительного входа, сохраняя традиционные модели EL для обработки конкретных задач. Эксперименты на 6 стандартных наборах данных показывают, что базовая LLMAEL превосходит базовые модели EL в большинстве случаев, в то время как настроенная LLMAEL устанавливает новые передовые результаты на всех 6 показателях.

ANAH-v2: Масштабирование аннотации аналитической галлюцинации для больших языковых моделей
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

Jul 5

ByYuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen

Большие языковые модели (LLM) проявляют галлюцинации в задачах долгих ответов на вопросы в различных областях и широких приложениях. Существующие наборы данных для обнаружения и уменьшения галлюцинаций ограничены областями и размерами, что затрудняет их масштабирование из-за высоких трудозатрат и недостаточной надежности существующих аннотаторов галлюцинаций. Для обеспечения масштабируемого контроля за галлюцинациями в LLM, в данной статье представлена итеративная самообучающаяся структура, которая одновременно и постепенно увеличивает набор данных с аннотациями галлюцинаций и повышает точность аннотатора галлюцинаций. Основываясь на алгоритме Expectation Maximization (EM), в каждой итерации структура сначала применяет конвейер аннотации галлюцинаций для аннотации масштабированного набора данных, а затем обучает более точного аннотатора галлюцинаций на этом наборе данных. Этот новый аннотатор галлюцинаций принимается в конвейере аннотации галлюцинаций, используемом для следующей итерации. Обширные экспериментальные результаты показывают, что наконец полученный аннотатор галлюцинаций с всего лишь 7 миллиардами параметров превосходит производительность GPT-4 и достигает новых передовых результатов обнаружения галлюцинаций на HaluEval и HalluQA с помощью нулевого вывода. Такой аннотатор может не только оценивать уровни галлюцинаций различных LLM на крупномасштабном наборе данных, но и помогать уменьшать галлюцинации в генерациях LLM, с метрикой Natural Language Inference (NLI), увеличивающейся с 25% до 37% на HaluEval.

MJ-Bench: Действительно ли ваш мультимодальная модель вознаграждения является хорошим судьей для генерации текста в изображение?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Jul 5