HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

9 papers found

Пояснительные инструкции: К пониманию задач обработки изображений и обобщения без обучения
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24

ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding

Компьютерное зрение (CV) до сих пор не достигло полного обобщения задач с нулевым обучением, наблюдаемого в обработке естественного языка (NLP), несмотря на то, что оно следует за многими вехами, установленными в NLP, такими как большие модели трансформеров, обширное предварительное обучение и парадигма авторегрессии, среди прочего. В этой статье мы исследуем идею, что CV принимает дискретные и терминологические определения задач (например, "сегментация изображений"), которые могут быть ключевым барьером для обобщения задач с нулевым обучением. Наша гипотеза заключается в том, что без истинного понимания ранее виденных задач - из-за этих терминологических определений - глубокие модели испытывают затруднения с обобщением на новые задачи. Для проверки этого мы представляем пояснительные инструкции, которые предоставляют интуитивный способ определения целей задач CV через подробные лингвистические преобразования от входных изображений к выходам. Мы создаем крупномасштабный набор данных, включающий 12 миллионов троек "входное изображение - пояснительная инструкция - выход", и обучаем модель зрения-языка на основе авторегрессии (AR-based VLM), которая принимает как изображения, так и пояснительные инструкции в качестве входных данных. Обучаясь следовать этим инструкциям, AR-based VLM достигает возможностей нулевого обучения на уровне инструкций для ранее виденных задач и демонстрирует сильное обобщение на нулевом уровне для невидимых задач CV. Код и набор данных будут открыто доступны в нашем репозитории GitHub.

О композициональной обобщаемости мультимодальных языковых моделей с оценкой для медицинского изображения
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28

ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang

Многомодальные крупные языковые модели (MLLM) имеют значительный потенциал в медицинской сфере, однако их возможности часто ограничены недостаточными данными в определенных медицинских областях, что подчеркивает необходимость понимания, какие виды изображений могут использоваться MLLM для обобщения. Существующие исследования показывают, что многозадачное обучение превосходит однозадачное, так как различные задачи могут взаимно пользоваться друг другом, но часто не учитывают внутренние взаимосвязи в этих задачах, что ограничивает рекомендации по выбору наборов данных для улучшения конкретных задач. Для анализа этого явления мы попытались использовать композиционное обобщение (CG) - способность моделей понимать новые комбинации путем повторного сочетания выученных элементов - в качестве руководящей концепции. Поскольку медицинские изображения могут быть точно определены по модальности, анатомической области и задаче, естественно создать среду для исследования CG. Поэтому мы собрали 106 медицинских наборов данных для создания Med-MAT для проведения всесторонних экспериментов. Эксперименты подтвердили, что MLLM могут использовать CG для понимания невидимых медицинских изображений и выявили CG как один из основных факторов обобщения, наблюдаемого при многозадачном обучении. Кроме того, дополнительные исследования показали, что CG эффективно поддерживает наборы данных с ограниченными данными и обеспечивает стабильную производительность на различных основах, подчеркивая его универсальность и широкие возможности применения. Med-MAT доступен публично по адресу https://github.com/FreedomIntelligence/Med-MAT.

Эффективное обслуживание программ логического вывода LLM с помощью Certaindex.
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30

ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang

Быстрое развитие крупных языковых моделей (LLM) разблокировало их возможности в продвинутых задачах рассуждения, таких как решение математических проблем, генерация кода и юридический анализ. Ключевым для этого прогресса являются алгоритмы рассуждения во время вывода, которые улучшают результаты, исследуя несколько путей решения, за счет увеличения вычислительной нагрузки и времени ответа. Существующие системы обслуживания не могут адаптироваться к масштабированию этих алгоритмов или изменчивой сложности запросов, что приводит к неэффективному использованию ресурсов и недостижению целей по времени отклика. Мы представляем Dynasor, систему, которая оптимизирует вычисления во время вывода для запросов рассуждения LLM. В отличие от традиционных движков, Dynasor отслеживает и планирует запросы в рамках запросов рассуждения и использует Certaindex, прокси, который измеряет статистический прогресс рассуждения на основе уверенности модели, для динамического руководства выделением вычислительных ресурсов. Dynasor совместно адаптирует планирование к прогрессу рассуждения: он выделяет больше вычислительных ресурсов для сложных запросов, уменьшает вычисления для более простых и досрочно завершает бесперспективные запросы, обеспечивая баланс между точностью, временем отклика и затратами. На разнообразных наборах данных и алгоритмах Dynasor сокращает вычисления до 50% при пакетной обработке и поддерживает повышение скорости запросов в 3,3 раза или сокращение времени отклика в 4,7 раза в реальном времени.

Edicho: Согласованное редактирование изображений в естественной среде
Edicho: Consistent Image Editing in the Wild

Dec 30

ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen

Как подтвержденная потребность, последовательное редактирование изображений в естественной среде остается технической проблемой, обусловленной различными неуправляемыми факторами, такими как позы объектов, условия освещения и фотографические окружения. Edicho предлагает решение без обучения на основе моделей диффузии, основанное на фундаментальном принципе использования явной корреспонденции изображений для направления редактирования. В частности, основные компоненты включают модуль манипуляции вниманием и стратегию денойзинга без классификатора (CFG), оба учитывающие предварительно оцененную корреспонденцию. Такой алгоритм времени вывода обладает свойством "подключи и играй" и совместим с большинством методов редактирования на основе диффузии, таких как ControlNet и BrushNet. Обширные результаты демонстрируют эффективность Edicho в последовательном редактировании изображений в различных условиях. Мы выпустим код для облегчения будущих исследований.

Персонализированные 3D генеративные аватары из одного портрета
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30

ByHyunsoo Cha, Inhee Lee, Hanbyul Joo

Мы представляем PERSE, метод для создания анимируемого персонализированного генеративного аватара из портрета-образца. Наша модель аватара позволяет редактировать лицевые атрибуты в непрерывном и разделенном латентном пространстве для контроля каждого лицевого атрибута, сохраняя при этом индивидуальную идентичность. Для достижения этой цели наш метод начинает с синтеза масштабных синтетических 2D видеоданных, где каждое видео содержит последовательные изменения в выражении лица и точке зрения, в сочетании с вариацией определенного лицевого атрибута из оригинального ввода. Мы предлагаем новый конвейер для создания высококачественных, фотореалистичных 2D видео с редактированием лицевых атрибутов. Используя этот синтетический набор данных атрибутов, мы представляем метод создания персонализированного аватара на основе 3D Гауссовского сплетения, обучая непрерывное и разделенное латентное пространство для интуитивного управления лицевыми атрибутами. Для обеспечения плавных переходов в этом латентном пространстве мы вводим технику регуляризации латентного пространства, используя интерполированные 2D лица в качестве надзора. По сравнению с предыдущими подходами, мы демонстрируем, что PERSE генерирует аватары высокого качества с интерполированными атрибутами, сохраняя идентичность образца-оригинала.

Облегчение адаптации крупных языковых моделей на русский язык с помощью изученного распространения вложений
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev

Быстрое развитие технологий крупных языковых моделей (LLM) привело к появлению мощных открытых LLM, настроенных на инструкции, которые обладают таким же качеством генерации текста, как у передовых аналогов, таких как GPT-4. В то время как появление таких моделей ускоряет принятие технологий LLM в средах с чувствительной информацией, авторы таких моделей не раскрывают данные обучения, необходимые для воспроизведения результатов, делая достижения эксклюзивными для модели. Поскольку эти открытые модели также многоязычны, это, в свою очередь, уменьшает преимущества обучения языковым моделям, так как улучшенная эффективность вычислений вывода становится единственным гарантированным преимуществом такой дорогостоящей процедуры. Более экономичные варианты, такие как расширение словаря и последующее продолжение предварительного обучения, также ограничены отсутствием доступа к данным высокого качества для настройки по инструкции, поскольку это является основным фактором, лежащим в основе возможностей решения задач LLM. Для преодоления ограничений и снижения затрат на процесс адаптации языка мы предлагаем метод Learned Embedding Propagation (LEP). В отличие от существующих подходов, наш метод требует меньшего объема данных обучения благодаря минимальному воздействию на существующие знания LLM, которые мы укрепляем с помощью новой процедуры внедрения встраивания ad-hoc, позволяющей пропустить этап настройки по инструкции и вместо этого внедрить новые языковые знания непосредственно в любой существующий вариант, настроенный по инструкции. Мы оценили четыре адаптации русского словаря для LLaMa-3-8B и Mistral-7B, показав, что LEP конкурентоспособен с традиционными методами настройки по инструкции, достигая производительности, сравнимой с OpenChat 3.5 и LLaMa-3-8B-Instruct, с дальнейшими улучшениями через самокалибровку и продолжение настройки, улучшающие возможности решения задач.

OneKE: Система извлечения знаний на основе агента LLM с управляемой схемой в Docker
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28

ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

Мы представляем OneKE - систему извлечения знаний с управляемой схемой, запущенную в Docker, которая может извлекать знания из веб-ресурсов и необработанных PDF-книг, а также поддерживать различные области (наука, новости и т. д.). Конкретно, мы разработали OneKE с несколькими агентами и настраиваемой базой знаний. Различные агенты выполняют свои роли, обеспечивая поддержку различных сценариев извлечения. Настраиваемая база знаний облегчает настройку схемы, отладку ошибок и их исправление, что дополнительно повышает производительность. Эмпирические оценки на эталонных наборах данных демонстрируют эффективность OneKE, а кейс-исследования дополнительно поясняют его адаптивность к различным задачам в различных областях, выделяя его потенциал для широкого применения. Мы опубликовали исходный код на https://github.com/zjunlp/OneKE и выпустили видео на http://oneke.openkg.cn/demo.mp4.

Медленное восприятие: давайте воспринимать геометрические фигуры пошагово
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30

ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang

Недавно "визуальный o1" начал появляться в поле зрения людей с ожиданиями, что этот медленный дизайн мышления может решить задачи визуального рассуждения, особенно геометрические математические задачи. Однако реальность заключается в том, что текущие LVLM (Большие Визуально-Языковые Модели) едва ли могут точно скопировать геометрическую фигуру, не говоря уже о том, чтобы по-настоящему понять сложную внутреннюю логику и пространственные отношения внутри геометрических форм. Мы считаем, что точное копирование (сильное восприятие) - это первый шаг к визуальному o1. Следовательно, мы представляем концепцию "медленного восприятия" (SP), которая направляет модель постепенно воспринимать базовые комбинации точек и линий, как это делают наши люди, постепенно восстанавливая сложные геометрические структуры. В SP есть два этапа: а) декомпозиция восприятия. Восприятие не мгновенно. На этом этапе сложные геометрические фигуры разбиваются на базовые простые единицы для унификации представления геометрии. б) поток восприятия, который признает, что точное прослеживание линии - не легкая задача. Этот этап направлен на избегание "длинных визуальных скачков" при регрессии линейных сегментов путем использования предложенного "воспринимающего линейку" для прослеживания каждого линейного штриха пошагово. Удивительно, что такой человекоподобный способ восприятия наслаждается законом масштабирования времени вывода - чем медленнее, тем лучше. Исследователи стремились ускорить восприятие модели в прошлом, но мы снова замедляем его, позволяя модели внимательно читать изображение пошагово и внимательно.

HumanEval Pro и MBPP Pro: Оценка больших языковых моделей на генерации кода, вызываемого самим собой
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30

ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

Мы представляем генерацию кода с автовызовом, новую задачу, разработанную для оценки прогрессивного мышления и способностей к решению проблем у LLM. В этой задаче моделям представляется базовая проблема и связанная с ней более сложная проблема. Они должны решить базовую проблему, а затем использовать ее решение для решения более сложной. Эта работа включает три ключевых вклада. Во-первых, мы предлагаем общий рецепт для создания более сложных версий существующих бенчмарков, что привело к появлению трех новых бенчмарков: HumanEval Pro, MBPP Pro и BigCodeBench-Lite Pro, специально разработанных для оценки LLM по генерации кода с автовызовом. Во-вторых, из анализа экспериментальных результатов более чем двадцати LLM на наших бенчмарках у нас есть два важных наблюдения: (i) Большинство LLM преуспевают в традиционных бенчмарках по генерации кода, таких как HumanEval и MBPP, но их производительность снижается на задачах с автовызовом. Например, o1-mini достигает 96.2% pass@1 на HumanEval, но только 76.2% на HumanEval Pro. (ii) В задаче генерации кода с автовызовом модели, настроенные на инструкции, демонстрируют лишь незначительные улучшения по сравнению с базовыми моделями. В-третьих, мы раскрываем типы режимов отказа, которые существуют в наших результатах оценки. Все эти результаты подчеркивают необходимость дальнейшего развития задач генерации кода с автовызовом и указывают на новое направление для будущих исследований по улучшению способностей LLM к рассуждению о коде.

Облегчение адаптации крупных языковых моделей на русский язык с помощью изученного распространения вложений
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev