HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

8 papers found

Медицинский SAM 2: Сегментация медицинских изображений в видео с помощью Segment Anything Модель 2
Medical SAM 2: Segment medical images as video via Segment Anything Model 2

Aug 1

ByJiayuan Zhu, Yunli Qi, Junde Wu

В данной статье мы представляем Medical SAM 2 (MedSAM-2), передовую модель сегментации, использующую фреймворк SAM 2 для решения задач сегментации медицинских изображений как в 2D, так и в 3D. Принимая философию рассмотрения медицинских изображений как видео, MedSAM-2 применима не только к 3D медицинским изображениям, но также открывает новую возможность Однократного Сегментирования. Это позволяет пользователям предоставить запрос только для одного или конкретного изображения, нацеленного на объект, после чего модель может автономно сегментировать тот же тип объекта на всех последующих изображениях, независимо от временных связей между изображениями. Мы оценили MedSAM-2 на различных модальностях медицинского изображения, включая органы брюшной полости, зрительные диски, опухоли головного мозга, узлы щитовидной железы и кожные поражения, сравнив ее с передовыми моделями как в традиционных, так и в интерактивных настройках сегментации. Наши результаты показывают, что MedSAM-2 не только превосходит существующие модели по производительности, но также обладает превосходной обобщающей способностью на широком спектре задач сегментации медицинских изображений. Наш код будет опубликован по адресу: https://github.com/MedicineToken/Medical-SAM2

ПОА: Предварительное обучение один раз для моделей всех размеров
POA: Pre-training Once for Models of All Sizes

Aug 2

ByYingying Zhang, Xin Guo, Jiangwei Lao, Lei Yu, Lixiang Ru, Jian Wang, Guo Ye, Huimei He, Jingdong Chen, Ming Yang

Масштабное предварительное обучение без учителя открыло путь для создания одной базовой модели, способной обрабатывать множество различных задач компьютерного зрения. Большинство методов предварительного обучения обучают одну модель определенного размера за один раз. Тем не менее, различные вычислительные или ограничения по хранению в реальных сценариях требуют значительных усилий для разработки серии моделей различных размеров для развертывания. Таким образом, в данном исследовании мы предлагаем новую трехветвую структуру самообучения, названную POA (Предварительное обучение один раз для всех), чтобы решить вышеупомянутую проблему. Наш подход вводит инновационную упругую ветвь студента в современную парадигму самодистилляции. На каждом шаге предварительного обучения мы случайным образом выбираем подсеть из исходного студента для формирования упругого студента и обучаем все ветви в режиме самодистилляции. После предварительного обучения POA позволяет извлекать предварительно обученные модели различных размеров для последующих задач. Замечательно, упругий студент облегчает одновременное предварительное обучение нескольких моделей различных размеров, что также выступает в качестве дополнительного ансамбля моделей различных размеров для улучшения обучения представлений. Обширные эксперименты, включая оценку ближайших соседей, линейное зондирование и оценку на нескольких последующих задачах, демонстрируют эффективность и преимущества нашего подхода POA. Он достигает передовых результатов, используя основные модели ViT, Swin Transformer и ResNet, создавая около сотни моделей различных размеров через одну сессию предварительного обучения. Код доступен по ссылке: https://github.com/Qichuzyy/POA.

ReLiK: Извлечение и связывание, быстрое и точное связывание сущностей и извлечение отношений при ограниченных академических ресурсах
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget

Jul 31

ByRiccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli

Связывание сущностей (Entity Linking, EL) и извлечение отношений (Relation Extraction, RE) являются фундаментальными задачами в обработке естественного языка, являясь критическими компонентами в широком спектре приложений. В данной статье мы предлагаем ReLiK, архитектуру Retriever-Reader для EL и RE, где, учитывая входной текст, модуль Retriever берет на себя идентификацию кандидатов сущностей или отношений, которые потенциально могут появиться в тексте. Впоследствии модуль Reader обязан различить соответствующие извлеченные сущности или отношения и установить их соответствие с соответствующими текстовыми отрезками. Значительно, мы предлагаем инновационное представление входных данных, которое включает кандидатов сущностей или отношений наряду с текстом, что позволяет связывать сущности или извлекать отношения за один проход и полностью использовать возможности контекстуализации предварительно обученных языковых моделей, в отличие от предыдущих методов на основе Retriever-Reader, требующих прохода для каждого кандидата. Наша формулировка EL и RE достигает передовой производительности как на внутриобластных, так и на внеблочных бенчмарках, используя обучение с участием академического бюджета и обеспечивая скорость вывода до 40 раз выше по сравнению с конкурентами. Наконец, мы показываем, как наша архитектура может быть беспрепятственно использована для извлечения информации (cIE), т.е. EL + RE, и устанавливаем новый уровень качества, используя общий Reader, который одновременно извлекает сущности и отношения.

TexGen: Генерация текстур 3D с управлением текстом с использованием многократной выборки и повторной выборки из нескольких видов.
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

Aug 2

ByDong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang

При наличии трехмерной сетки наша цель - синтезировать трехмерные текстуры, соответствующие произвольным текстовым описаниям. Существующие методы генерации и сборки текстур из выбранных видов часто приводят к выдающимся швам или избыточному сглаживанию. Для решения этих проблем мы представляем TexGen - новую многовидовую схему выборки и повторной выборки для генерации текстур, использующую предварительно обученную модель диффузии текста в изображение. Для согласованной выборки видов в первую очередь мы поддерживаем текстурную карту в цветовом пространстве RGB, параметризованную шагом денойзинга и обновляемую после каждого шага выборки модели диффузии для постепенного уменьшения различий во взглядах. Используется стратегия многовидовой выборки с управляемым вниманием для передачи информации об облике между видами. Для сохранения деталей текстуры мы разрабатываем технику повторной выборки шума, которая помогает в оценке шума, генерируя входные данные для последующих шагов денойзинга, как указано в текстовой подсказке и текущей текстурной карте. Через обширное количество качественных и количественных оценок мы демонстрируем, что наш метод производит значительно лучшее качество текстуры для разнообразных трехмерных объектов с высокой степенью согласованности взглядов и богатыми деталями облика, превосходя текущие передовые методы. Более подробные экспериментальные результаты доступны по ссылке https://dong-huo.github.io/TexGen/

MuChoMusic: Оценка понимания музыки в мультимодальных аудио-языковых моделях
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

Aug 2

ByBenno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov

Мультимодельные модели, которые совместно обрабатывают аудио и язык, обладают большим потенциалом в понимании звука и все более широко применяются в музыкальной сфере. Позволяя пользователям делать запросы по тексту и получать информацию о заданном аудиовходе, эти модели имеют потенциал для выполнения различных задач по пониманию музыки через языковые интерфейсы. Однако их оценка представляет существенные трудности, и остается неясным, как эффективно оценить их способность правильно интерпретировать музыкальные входы с использованием текущих методов. Вдохновленные этим, мы представляем MuChoMusic, бенчмарк для оценки понимания музыки в мультимодельных языковых моделях, сосредоточенных на аудио. MuChoMusic включает 1,187 вопросов с выбором ответа, все проверенные человеческими аннотаторами, на 644 музыкальных треках из двух общедоступных наборов данных по музыке и охватывает широкий спектр жанров. Вопросы в бенчмарке разработаны для оценки знаний и умений рассуждения по нескольким измерениям, охватывающим фундаментальные музыкальные концепции и их отношение к культурным и функциональным контекстам. Через всесторонний анализ, предоставленный бенчмарком, мы оцениваем пять моделей с открытым исходным кодом и выявляем несколько проблем, включая чрезмерную зависимость от языковой модальности, указывая на необходимость лучшей мультимодальной интеграции. Данные и код открыты для использования.

Выбор примеров в контексте с помощью поиска похожих улучшает машинный перевод при ограниченных ресурсах.
In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation

Aug 1

ByArmel Zebaze, Benoît Sagot, Rachel Bawden

Способность генеративных моделей больших языковых моделей (LLM) выполнять контекстное обучение привела к появлению большого объема исследований по тому, как лучше всего подавать моделям запросы для различных задач обработки естественного языка. В данной статье мы сосредотачиваемся на машинном переводе (MT), задаче, которая, как показано, выигрывает от контекстных примеров перевода. Однако систематических исследований по тому, как лучше всего выбирать примеры, не было опубликовано, и были получены противоречивые результаты относительно полезности выбора на основе сходства по сравнению с случайным выбором. Мы представляем исследование, охватывающее несколько LLM и несколько стратегий извлечения контекстных примеров, сравнивая мультиязычные векторные представления предложений. Мы рассматриваем несколько языковых направлений, представляющих разные уровни языковых ресурсов (с английского на французский, немецкий, суахили и волоф). В отличие от ранее опубликованных результатов, мы обнаруживаем, что сходство векторных представлений предложений может улучшить машинный перевод, особенно для направлений с низкими языковыми ресурсами, и обсуждаем баланс между разнообразием и качеством выбора пула примеров. Мы также выделяем потенциальные проблемы с оценкой машинного перевода на основе LLM и предлагаем более подходящий протокол оценки, адаптируя метрику COMET для оценки LLM. Код и результаты доступны по ссылке https://github.com/ArmelRandy/ICL-MT.

RelBench: Набор тестов для глубокого обучения на реляционных базах данных
RelBench: A Benchmark for Deep Learning on Relational Databases

Jul 29

ByJoshua Robinson, Rishabh Ranjan, Weihua Hu, Kexin Huang, Jiaqi Han, Alejandro Dobles, Matthias Fey, Jan E. Lenssen, Yiwen Yuan, Zecheng Zhang, Xinwei He, Jure Leskovec

Мы представляем RelBench, общедоступный бенчмарк для решения предиктивных задач над реляционными базами данных с графовыми нейронными сетями. RelBench предоставляет базы данных и задачи, охватывающие различные области и масштабы, и призван быть основополагающей инфраструктурой для будущих исследований. Мы используем RelBench для проведения первого всестороннего исследования Реляционного Глубокого Обучения (RDL) (Фей и др., 2024), которое объединяет предиктивные модели графовых нейронных сетей с (глубокими) табличными моделями, извлекающими начальные представления на уровне сущностей из исходных таблиц. Модели RDL с обучением от начала до конца полностью используют предиктивный сигнал, закодированный в первичных и внешних ключевых ссылках, что является значительным сдвигом от доминирующей парадигмы ручного инжиниринга признаков в сочетании с табличными моделями. Для тщательной оценки RDL по сравнению с эталоном предыдущего золотого стандарта мы проводим глубокое исследование пользовательского опыта, где опытный специалист по данным вручную создает признаки для каждой задачи. В этом исследовании RDL обучается лучшим моделям, сокращая необходимую для этого человеческую работу более чем на порядок. Это демонстрирует мощь глубокого обучения для решения предиктивных задач над реляционными базами данных, открывая множество новых исследовательских возможностей, предоставленных RelBench.

Измерение Прогресса в Обучении Словарей для Моделей Языка с Помощью Моделей настольных игр
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

Jul 31

ByAdam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks

Какие скрытые признаки закодированы в представлениях языковых моделей (LM)? Недавние исследования по обучению разреженных автокодировщиков (SAE) для разделения интерпретируемых признаков в представлениях LM показали значительный потенциал. Однако оценка качества этих SAE затруднена из-за отсутствия коллекции истинных интерпретируемых признаков, которые мы ожидаем, что хорошие SAE смогут восстановить. Поэтому мы предлагаем измерять прогресс в обучении интерпретируемого словаря, работая в условиях LM, обученных на транскриптах шахмат и Отелло. Эти условия содержат естественные коллекции интерпретируемых признаков - например, "на F3 стоит конь" - которые мы используем для оценки качества SAE с помощью надзорных метрик. Для направления прогресса в обучении интерпретируемого словаря мы представляем новую технику обучения SAE, p-отжиг, которая улучшает производительность по сравнению с предыдущими ненадзорными метриками, а также нашими новыми метриками.

ПОА: Предварительное обучение один раз для моделей всех размеров
POA: Pre-training Once for Models of All Sizes

Aug 2

ByYingying Zhang, Xin Guo, Jiangwei Lao, Lei Yu, Lixiang Ru, Jian Wang, Guo Ye, Huimei He, Jingdong Chen, Ming Yang