HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

Диффузия нейронных сетей
Neural Network Diffusion

Feb 20

ByKai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You

Диффузионные модели достигли значительных успехов в генерации изображений и видео. В данной работе мы демонстрируем, что диффузионные модели также способны генерировать высокопроизводительные параметры нейронных сетей. Наш подход прост: он использует автоэнкодер и стандартную латентную диффузионную модель. Автоэнкодер извлекает латентные представления подмножества обученных параметров сети. Затем диффузионная модель обучается синтезировать эти латентные представления параметров из случайного шума. После этого она генерирует новые представления, которые передаются через декодер автоэнкодера, и на выходе получаются готовые к использованию новые подмножества параметров сети. На различных архитектурах и наборах данных наш процесс диффузии стабильно генерирует модели, которые по производительности сопоставимы или превосходят обученные сети, при минимальных дополнительных затратах. Примечательно, что мы эмпирически обнаружили, что сгенерированные модели работают иначе по сравнению с обученными сетями. Наши результаты стимулируют дальнейшее исследование универсального использования диффузионных моделей.

Синтетические данные (почти) с нуля: обобщённая настройка инструкций для языковых моделей
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Feb 20

ByHaoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei

Мы представляем Обобщённую Настройку по Инструкциям (Generalized Instruction Tuning, GLAN) — универсальный и масштабируемый метод настройки крупных языковых моделей (LLM) на выполнение инструкций. В отличие от предыдущих работ, которые полагаются на начальные примеры или существующие наборы данных для создания данных для настройки, GLAN исключительно использует заранее подготовленную таксономию человеческих знаний и способностей в качестве входных данных и генерирует крупномасштабные синтетические данные с инструкциями, охватывающие все дисциплины. В частности, вдохновляясь систематической структурой системы образования, мы создаём таксономию, разбивая человеческие знания и способности на различные области, подразделы и, в конечном итоге, отдельные дисциплины полуавтоматически с помощью LLM. Затем мы генерируем исчерпывающий список предметов для каждой дисциплины и разрабатываем учебный план, адаптированный для каждого предмета, снова используя LLM. Благодаря детализированным ключевым концепциям в каждом занятии учебного плана, мы можем генерировать разнообразные инструкции с широким охватом всего спектра человеческих знаний и навыков. Многочисленные эксперименты на крупных языковых моделях (например, Mistral) демонстрируют, что GLAN превосходит в нескольких аспектах: от математического мышления, программирования, академических экзаменов и логического рассуждения до общего следования инструкциям, без использования специфических обучающих данных для этих задач. Кроме того, GLAN позволяет легко адаптироваться, и новые области или навыки могут быть добавлены простым включением нового узла в нашу таксономию.

VideoPrism: Базовый визуальный кодировщик для понимания видео
VideoPrism: A Foundational Visual Encoder for Video Understanding

Feb 20

ByLong Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong

Мы представляем VideoPrism — универсальный видеокодер, который решает разнообразные задачи понимания видео с использованием одной замороженной модели. VideoPrism предварительно обучается на гетерогенном корпусе, содержащем 36 миллионов пар видео-описаний высокого качества и 582 миллиона видеоклипов с зашумленным параллельным текстом (например, транскриптами ASR). Наш подход к предварительному обучению улучшает метод маскированного автоэнкодинга за счет глобально-локального дистилляции семантических видеовложений и схемы перестановки токенов, что позволяет VideoPrism сосредоточиться в первую очередь на видеомодальности, одновременно используя ценный текст, связанный с видео. Мы тщательно тестируем VideoPrism на четырех широких группах задач понимания видео — от ответов на вопросы по веб-видео до компьютерного зрения для науки — и достигаем наилучших результатов на 30 из 33 бенчмарков для понимания видео.

Video ReCap: Рекурсивное создание описаний для часовых видеозаписей
Video ReCap: Recursive Captioning of Hour-Long Videos

Feb 20

ByMd Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

Большинство моделей для создания видеоподписей предназначены для обработки коротких видеоклипов длительностью в несколько секунд и вывода текста, описывающего базовые визуальные концепции (например, объекты, сцены, элементарные действия). Однако большинство реальных видео длятся минуты или часы и имеют сложную иерархическую структуру, охватывающую различные временные гранулярности. Мы предлагаем Video ReCap — рекурсивную модель для создания видеоподписей, которая способна обрабатывать видео входных данных с существенно разной длительностью (от 1 секунды до 2 часов) и выводить видеоподписи на нескольких уровнях иерархии. Рекурсивная архитектура, объединяющая видео и язык, использует синергию между различными уровнями иерархии видео и позволяет эффективно обрабатывать часовые видео. Мы применяем схему обучения с использованием учебного плана для изучения иерархической структуры видео, начиная с подписей на уровне клипов, описывающих элементарные действия, затем переходя к описаниям на уровне сегментов и завершая генерацией сводок для часовых видео. Кроме того, мы представляем набор данных Ego4D-HCap, расширяя Ego4D 8 267 вручную собранными сводками для длинных видео. Наша рекурсивная модель может гибко генерировать подписи на разных уровнях иерархии, а также быть полезной для других сложных задач понимания видео, таких как VideoQA на EgoSchema. Данные, код и модели доступны по адресу: https://sites.google.com/view/vidrecap.

Языковые модели, настроенные на выполнение инструкций, демонстрируют более эффективное усвоение знаний.
Instruction-tuned Language Models are Better Knowledge Learners

Feb 20

ByZhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer

Для того чтобы ассистенты на основе больших языковых моделей (LLM) могли эффективно адаптироваться к изменяющимся информационным потребностям, необходимо обновлять их фактические знания путем продолжения обучения на новых данных. Стандартный подход для этого включает продолжение предварительного обучения на новых документах с последующей настройкой на инструкциях с использованием пар вопрос-ответ (QA). Однако мы обнаружили, что LLM, обученные по этому методу, испытывают трудности с ответами на вопросы, несмотря на минимизацию перплексии документов. Мы выяснили, что пары QA, как правило, более просты, тогда как документы сложнее, объединяя множество фактов в сложной манере. Поэтому мы предполагаем, что полезно знакомить LLM с парами QA до продолжения предварительного обучения на документах, чтобы процесс кодирования знаний из сложных документов учитывал, как эти знания извлекаются через вопросы. На основе этого мы предлагаем метод предварительной настройки на инструкциях (PIT), который выполняет настройку на вопросах перед обучением на документах. Это отличается от стандартной настройки на инструкциях, которая учится извлекать знания после обучения на документах. Многочисленные эксперименты и исследования показывают, что PIT значительно улучшает способность LLM усваивать знания из новых документов, превосходя стандартную настройку на инструкциях на 17,8%.

FinBen: Комплексный финансовый эталон для больших языковых моделей
The FinBen: An Holistic Financial Benchmark for Large Language Models

Feb 20

ByQianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang

Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP) и продемонстрировали потенциал в различных сферах, однако их возможности в финансах остаются недостаточно изученными из-за отсутствия тщательных оценок и сложности финансовых задач. Это, наряду с быстрым развитием LLM, подчеркивает острую необходимость в систематическом бенчмарке для оценки их финансовых возможностей. В данной статье мы представляем FinBen — первый всесторонний открытый бенчмарк, специально разработанный для глубокой оценки способностей LLM в финансовой области. FinBen включает 35 наборов данных, охватывающих 23 финансовые задачи, организованные в три уровня сложности, вдохновленные теорией Кеттелла-Хорна-Кэрролла, чтобы оценить когнитивные способности LLM в индуктивном рассуждении, ассоциативной памяти, количественном анализе, кристаллизованном интеллекте и других аспектах. Наша оценка 15 репрезентативных LLM, включая GPT-4, ChatGPT и новейшую Gemini, выявила их сильные и слабые стороны в финансовой сфере. Результаты показывают, что GPT-4 лидирует в количественном анализе, извлечении данных, численном рассуждении и торговле акциями, в то время как Gemini выделяется в генерации и прогнозировании; однако обе модели испытывают трудности с комплексным извлечением данных и прогнозированием, что указывает на явную необходимость целенаправленных улучшений. Тюнинг на инструкциях улучшает производительность в простых задачах, но не способствует значительному улучшению сложного рассуждения и прогнозирования. FinBen стремится к непрерывной оценке LLM в финансах, способствуя развитию ИИ за счет регулярного обновления задач и моделей.

Повышение устойчивости при совместной оптимизации поз камер и декомпозированных низкоранговых тензорных полей излучения
Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

Feb 20

ByBo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu

В данной статье мы предлагаем алгоритм, позволяющий совместно уточнять позу камеры и геометрию сцены, представленную в виде разложенного низкорангового тензора, используя только 2D-изображения в качестве обучающих данных. Сначала мы проводим пилотное исследование на основе одномерного сигнала и связываем полученные результаты с трехмерными сценариями, где наивная совместная оптимизация позы на основе воксельных NeRF может легко привести к субоптимальным решениям. Кроме того, на основе анализа частотного спектра мы предлагаем применять сверточные гауссовы фильтры к 2D и 3D полям излучения для поэтапного обучения от грубого к точному, что позволяет совместно оптимизировать позу камеры. Используя свойство разложения в низкоранговом тензоре, наш метод достигает эффекта, эквивалентного полному 3D-свертыванию, с минимальными вычислительными затратами. Для повышения устойчивости и стабильности совместной оптимизации мы также предлагаем методы сглаженного 2D-обучения, случайного масштабирования параметров ядра и маски потерь, ориентированной на границы. Многочисленные количественные и качественные оценки демонстрируют, что предложенный нами подход обеспечивает превосходную производительность в синтезе новых видов, а также быстрое сходимость при оптимизации.

MVDiffusion++: Плотная диффузионная модель высокого разрешения для многовидового восстановления 3D-объектов по одному или нескольким изображениям
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

Feb 20

ByShitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan

В данной статье представлена нейронная архитектура MVDiffusion++ для реконструкции 3D-объектов, которая синтезирует плотные и высококачественные изображения объекта на основе одного или нескольких изображений без информации о положении камеры. MVDiffusion++ достигает превосходной гибкости и масштабируемости благодаря двум удивительно простым идеям: 1) «архитектура без использования поз», в которой стандартное самовнимание между 2D-латентными признаками изучает 3D-согласованность между произвольным количеством условных и генерируемых видов без явного использования информации о положении камеры; и 2) «стратегия выборочного отбрасывания видов», которая отбрасывает значительное количество выходных видов во время обучения, что уменьшает объем памяти, необходимый для обучения, и позволяет синтезировать плотные и высококачественные изображения на этапе тестирования. Для обучения используется набор данных Objaverse, а для оценки — Google Scanned Objects с использованием стандартных метрик синтеза новых видов и 3D-реконструкции, где MVDiffusion++ значительно превосходит современные методы. Также демонстрируется пример применения текста к 3D путем комбинирования MVDiffusion++ с генеративной моделью, преобразующей текст в изображение.

Набор данных для мультимодального согласования, включающий тактильные, визуальные и языковые данные
A Touch, Vision, and Language Dataset for Multimodal Alignment

Feb 20

ByLetian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg

Осязание является важной сенсорной модальностью для человека, однако оно еще не было интегрировано в мультимодальные генеративные языковые модели. Это частично связано с трудностями получения естественно-языковых меток для тактильных данных и сложностью согласования тактильных показаний с визуальными наблюдениями и языковыми описаниями. В качестве шага к преодолению этого разрыва данная работа представляет новый набор данных, состоящий из 44 тысяч пар "зрение-осязание", собранных в естественных условиях, с английскими языковыми метками, аннотированными людьми (10%), и текстовыми псевдо-метками, сгенерированными GPT-4V (90%). Мы используем этот набор данных для обучения тактильного кодера, согласованного с визуальным и языковым представлением, для классификации с открытым словарем, а также модели "осязание-зрение-язык" (TVL) для генерации текста с использованием обученного кодера. Результаты показывают, что благодаря включению осязания модель TVL улучшает согласование "осязание-зрение-язык" (+29% точности классификации) по сравнению с существующими моделями, обученными на любой паре этих модальностей. Хотя лишь небольшая часть набора данных была аннотирована людьми, модель TVL демонстрирует улучшенное понимание визуально-тактильных связей по сравнению с GPT-4V (+12%) и открытыми моделями "зрение-язык" (+32%) на новом бенчмарке для понимания "осязание-зрение". Код и данные: https://tactile-vlm.github.io.

FlashTex: Быстрое текстурирование мешей с возможностью переосвещения с использованием LightControlNet
FlashTex: Fast Relightable Mesh Texturing with LightControlNet

Feb 20

ByKangle Deng, Timothy Omernick, Alexander Weiss, Deva Ramanan, Jun-Yan Zhu, Tinghui Zhou, Maneesh Agrawala

Ручное создание текстур для 3D-мешей является трудоемким процессом даже для опытных создателей визуального контента. Мы предлагаем быстрый подход для автоматического текстурирования входного 3D-меша на основе текстового запроса, предоставленного пользователем. Важно, что наш подход разделяет освещение и свойства поверхности/отражения в итоговой текстуре, что позволяет корректно переосвещать и визуализировать меш в любых условиях освещения. Мы представляем LightControlNet — новую текстово-изобразительную модель, основанную на архитектуре ControlNet, которая позволяет задавать желаемое освещение в виде управляющего изображения для модели. Наш текстово-текстурный конвейер создает текстуру в два этапа. На первом этапе с помощью LightControlNet генерируется разреженный набор визуально согласованных референсных видов меша. На втором этапе применяется оптимизация текстуры на основе метода Score Distillation Sampling (SDS), которая работает совместно с LightControlNet для повышения качества текстуры и разделения свойств поверхности и освещения. Наш конвейер значительно быстрее предыдущих методов текстово-текстурного преобразования, при этом создавая высококачественные и переосвещаемые текстуры.

Насколько легко обмануть ваши мультимодальные LLM? Эмпирический анализ обманчивых запросов
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

Feb 20

ByYusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan

Заметные достижения в области мультимодальных больших языковых моделей (MLLMs) не сделали их неуязвимыми для проблем, особенно в контексте обработки обманчивой информации в запросах, что приводит к генерации галлюцинированных ответов в таких условиях. Для количественной оценки этой уязвимости мы представляем MAD-Bench — тщательно разработанный бенчмарк, содержащий 850 тестовых примеров, разделенных на 6 категорий, таких как несуществующие объекты, количество объектов, пространственные отношения и визуальные путаницы. Мы проводим всесторонний анализ популярных MLLMs, включая GPT-4V, Gemini-Pro, а также открытые модели, такие как LLaVA-1.5 и CogVLM. Эмпирически мы наблюдаем значительные различия в производительности между GPT-4V и другими моделями; при этом ранее устойчивые модели, настроенные на инструкции, такие как LRV-Instruction и LLaVA-RLHF, неэффективны на этом новом бенчмарке. В то время как GPT-4V достигает точности 75,02% на MAD-Bench, точность любой другой модели в наших экспериментах варьируется от 5% до 35%. Мы также предлагаем решение, которое добавляет дополнительный абзац к обманчивым запросам, чтобы побудить модели задуматься перед ответом на вопрос. Удивительно, но этот простой метод может даже удвоить точность; однако абсолютные значения все еще слишком низки, чтобы быть удовлетворительными. Мы надеемся, что MAD-Bench станет ценным бенчмарком для стимулирования дальнейших исследований, направленных на повышение устойчивости моделей к обманчивым запросам.

TofuEval: Оценка галлюцинаций языковых моделей в тематически-ориентированной диалоговой суммаризации
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

Feb 20

ByLiyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown

В последние годы в области суммаризации новостей из одного документа достигнут значительный прогресс в плане достоверности, что обусловлено исследованиями в области оценки фактической согласованности или галлюцинаций. Мы задаемся вопросом, распространяются ли эти достижения на другие области суммаризации текста. Мы предлагаем новый эталонный метод оценки для тематической суммаризации диалогов, созданный с использованием языковых моделей (LLM) различного размера. Мы предоставляем бинарные аннотации на уровне предложений, созданные людьми, для оценки фактической согласованности этих суммаризаций, а также подробные объяснения для предложений, содержащих фактические ошибки. Наш анализ показывает, что существующие LLM генерируют значительное количество фактических ошибок в области диалогов, независимо от размера модели. С другой стороны, когда LLM, включая GPT-4, используются в качестве бинарных оценщиков фактической согласованности, их результаты оказываются неудовлетворительными, и они уступают современным специализированным метрикам оценки фактической достоверности. Наконец, мы провели анализ типов галлюцинаций с использованием разработанной таксономии ошибок. Мы обнаружили, что в суммаризациях, созданных моделями, присутствуют разнообразные ошибки и их распределения, и что метрики, не основанные на LLM, лучше справляются с выявлением всех типов ошибок, чем оценщики на основе LLM.

RealCompo: Динамическое равновесие между реализмом и композиционностью для улучшения диффузионных моделей генерации изображений из текста
RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models

Feb 20

ByXinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui

Диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям. Однако существующие модели по-прежнему сталкиваются с множеством трудностей при генерации композиций с несколькими объектами. В данной статье мы предлагаем новую структуру для генерации изображений по тексту, не требующую дополнительного обучения и легко адаптируемую, под названием RealCompo, которая призвана объединить преимущества моделей генерации изображений по тексту и по макету для повышения реалистичности и композиционности создаваемых изображений. Предложен интуитивно понятный и инновационный балансировщик, который динамически регулирует влияние двух моделей в процессе удаления шума, позволяя использовать любые модели в режиме plug-and-play без дополнительного обучения. Многочисленные эксперименты показывают, что наш RealCompo стабильно превосходит современные модели генерации изображений по тексту и по макету в задачах создания композиций с несколькими объектами, сохраняя при этом высокий уровень реалистичности и композиционности генерируемых изображений. Код доступен по адресу https://github.com/YangLing0818/RealCompo.

FinBen: Комплексный финансовый эталон для больших языковых моделей
The FinBen: An Holistic Financial Benchmark for Large Language Models

Feb 20