Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем Medical SAM 2 (MedSAM-2), передовую модель сегментации, использующую фреймворк SAM 2 для решения задач сегментации медицинских изображений как в 2D, так и в 3D. Принимая философию рассмотрения медицинских изображений как видео, MedSAM-2 применима не только к 3D медицинским изображениям, но также открывает новую возможность Однократного Сегментирования. Это позволяет пользователям предоставить запрос только для одного или конкретного изображения, нацеленного на объект, после чего модель может автономно сегментировать тот же тип объекта на всех последующих изображениях, независимо от временных связей между изображениями. Мы оценили MedSAM-2 на различных модальностях медицинского изображения, включая органы брюшной полости, зрительные диски, опухоли головного мозга, узлы щитовидной железы и кожные поражения, сравнив ее с передовыми моделями как в традиционных, так и в интерактивных настройках сегментации. Наши результаты показывают, что MedSAM-2 не только превосходит существующие модели по производительности, но также обладает превосходной обобщающей способностью на широком спектре задач сегментации медицинских изображений. Наш код будет опубликован по адресу: https://github.com/MedicineToken/Medical-SAM2
Масштабное предварительное обучение без учителя открыло путь для создания одной базовой модели, способной обрабатывать множество различных задач компьютерного зрения. Большинство методов предварительного обучения обучают одну модель определенного размера за один раз. Тем не менее, различные вычислительные или ограничения по хранению в реальных сценариях требуют значительных усилий для разработки серии моделей различных размеров для развертывания. Таким образом, в данном исследовании мы предлагаем новую трехветвую структуру самообучения, названную POA (Предварительное обучение один раз для всех), чтобы решить вышеупомянутую проблему. Наш подход вводит инновационную упругую ветвь студента в современную парадигму самодистилляции. На каждом шаге предварительного обучения мы случайным образом выбираем подсеть из исходного студента для формирования упругого студента и обучаем все ветви в режиме самодистилляции. После предварительного обучения POA позволяет извлекать предварительно обученные модели различных размеров для последующих задач. Замечательно, упругий студент облегчает одновременное предварительное обучение нескольких моделей различных размеров, что также выступает в качестве дополнительного ансамбля моделей различных размеров для улучшения обучения представлений. Обширные эксперименты, включая оценку ближайших соседей, линейное зондирование и оценку на нескольких последующих задачах, демонстрируют эффективность и преимущества нашего подхода POA. Он достигает передовых результатов, используя основные модели ViT, Swin Transformer и ResNet, создавая около сотни моделей различных размеров через одну сессию предварительного обучения. Код доступен по ссылке: https://github.com/Qichuzyy/POA.
Связывание сущностей (Entity Linking, EL) и извлечение отношений (Relation Extraction, RE) являются фундаментальными задачами в обработке естественного языка, являясь критическими компонентами в широком спектре приложений. В данной статье мы предлагаем ReLiK, архитектуру Retriever-Reader для EL и RE, где, учитывая входной текст, модуль Retriever берет на себя идентификацию кандидатов сущностей или отношений, которые потенциально могут появиться в тексте. Впоследствии модуль Reader обязан различить соответствующие извлеченные сущности или отношения и установить их соответствие с соответствующими текстовыми отрезками. Значительно, мы предлагаем инновационное представление входных данных, которое включает кандидатов сущностей или отношений наряду с текстом, что позволяет связывать сущности или извлекать отношения за один проход и полностью использовать возможности контекстуализации предварительно обученных языковых моделей, в отличие от предыдущих методов на основе Retriever-Reader, требующих прохода для каждого кандидата. Наша формулировка EL и RE достигает передовой производительности как на внутриобластных, так и на внеблочных бенчмарках, используя обучение с участием академического бюджета и обеспечивая скорость вывода до 40 раз выше по сравнению с конкурентами. Наконец, мы показываем, как наша архитектура может быть беспрепятственно использована для извлечения информации (cIE), т.е. EL + RE, и устанавливаем новый уровень качества, используя общий Reader, который одновременно извлекает сущности и отношения.
При наличии трехмерной сетки наша цель - синтезировать трехмерные текстуры, соответствующие произвольным текстовым описаниям. Существующие методы генерации и сборки текстур из выбранных видов часто приводят к выдающимся швам или избыточному сглаживанию. Для решения этих проблем мы представляем TexGen - новую многовидовую схему выборки и повторной выборки для генерации текстур, использующую предварительно обученную модель диффузии текста в изображение. Для согласованной выборки видов в первую очередь мы поддерживаем текстурную карту в цветовом пространстве RGB, параметризованную шагом денойзинга и обновляемую после каждого шага выборки модели диффузии для постепенного уменьшения различий во взглядах. Используется стратегия многовидовой выборки с управляемым вниманием для передачи информации об облике между видами. Для сохранения деталей текстуры мы разрабатываем технику повторной выборки шума, которая помогает в оценке шума, генерируя входные данные для последующих шагов денойзинга, как указано в текстовой подсказке и текущей текстурной карте. Через обширное количество качественных и количественных оценок мы демонстрируем, что наш метод производит значительно лучшее качество текстуры для разнообразных трехмерных объектов с высокой степенью согласованности взглядов и богатыми деталями облика, превосходя текущие передовые методы. Более подробные экспериментальные результаты доступны по ссылке https://dong-huo.github.io/TexGen/
Мультимодельные модели, которые совместно обрабатывают аудио и язык, обладают большим потенциалом в понимании звука и все более широко применяются в музыкальной сфере. Позволяя пользователям делать запросы по тексту и получать информацию о заданном аудиовходе, эти модели имеют потенциал для выполнения различных задач по пониманию музыки через языковые интерфейсы. Однако их оценка представляет существенные трудности, и остается неясным, как эффективно оценить их способность правильно интерпретировать музыкальные входы с использованием текущих методов. Вдохновленные этим, мы представляем MuChoMusic, бенчмарк для оценки понимания музыки в мультимодельных языковых моделях, сосредоточенных на аудио. MuChoMusic включает 1,187 вопросов с выбором ответа, все проверенные человеческими аннотаторами, на 644 музыкальных треках из двух общедоступных наборов данных по музыке и охватывает широкий спектр жанров. Вопросы в бенчмарке разработаны для оценки знаний и умений рассуждения по нескольким измерениям, охватывающим фундаментальные музыкальные концепции и их отношение к культурным и функциональным контекстам. Через всесторонний анализ, предоставленный бенчмарком, мы оцениваем пять моделей с открытым исходным кодом и выявляем несколько проблем, включая чрезмерную зависимость от языковой модальности, указывая на необходимость лучшей мультимодальной интеграции. Данные и код открыты для использования.
Способность генеративных моделей больших языковых моделей (LLM) выполнять контекстное обучение привела к появлению большого объема исследований по тому, как лучше всего подавать моделям запросы для различных задач обработки естественного языка. В данной статье мы сосредотачиваемся на машинном переводе (MT), задаче, которая, как показано, выигрывает от контекстных примеров перевода. Однако систематических исследований по тому, как лучше всего выбирать примеры, не было опубликовано, и были получены противоречивые результаты относительно полезности выбора на основе сходства по сравнению с случайным выбором. Мы представляем исследование, охватывающее несколько LLM и несколько стратегий извлечения контекстных примеров, сравнивая мультиязычные векторные представления предложений. Мы рассматриваем несколько языковых направлений, представляющих разные уровни языковых ресурсов (с английского на французский, немецкий, суахили и волоф). В отличие от ранее опубликованных результатов, мы обнаруживаем, что сходство векторных представлений предложений может улучшить машинный перевод, особенно для направлений с низкими языковыми ресурсами, и обсуждаем баланс между разнообразием и качеством выбора пула примеров. Мы также выделяем потенциальные проблемы с оценкой машинного перевода на основе LLM и предлагаем более подходящий протокол оценки, адаптируя метрику COMET для оценки LLM. Код и результаты доступны по ссылке https://github.com/ArmelRandy/ICL-MT.
Мы представляем RelBench, общедоступный бенчмарк для решения предиктивных задач над реляционными базами данных с графовыми нейронными сетями. RelBench предоставляет базы данных и задачи, охватывающие различные области и масштабы, и призван быть основополагающей инфраструктурой для будущих исследований. Мы используем RelBench для проведения первого всестороннего исследования Реляционного Глубокого Обучения (RDL) (Фей и др., 2024), которое объединяет предиктивные модели графовых нейронных сетей с (глубокими) табличными моделями, извлекающими начальные представления на уровне сущностей из исходных таблиц. Модели RDL с обучением от начала до конца полностью используют предиктивный сигнал, закодированный в первичных и внешних ключевых ссылках, что является значительным сдвигом от доминирующей парадигмы ручного инжиниринга признаков в сочетании с табличными моделями. Для тщательной оценки RDL по сравнению с эталоном предыдущего золотого стандарта мы проводим глубокое исследование пользовательского опыта, где опытный специалист по данным вручную создает признаки для каждой задачи. В этом исследовании RDL обучается лучшим моделям, сокращая необходимую для этого человеческую работу более чем на порядок. Это демонстрирует мощь глубокого обучения для решения предиктивных задач над реляционными базами данных, открывая множество новых исследовательских возможностей, предоставленных RelBench.
Какие скрытые признаки закодированы в представлениях языковых моделей (LM)? Недавние исследования по обучению разреженных автокодировщиков (SAE) для разделения интерпретируемых признаков в представлениях LM показали значительный потенциал. Однако оценка качества этих SAE затруднена из-за отсутствия коллекции истинных интерпретируемых признаков, которые мы ожидаем, что хорошие SAE смогут восстановить. Поэтому мы предлагаем измерять прогресс в обучении интерпретируемого словаря, работая в условиях LM, обученных на транскриптах шахмат и Отелло. Эти условия содержат естественные коллекции интерпретируемых признаков - например, "на F3 стоит конь" - которые мы используем для оценки качества SAE с помощью надзорных метрик. Для направления прогресса в обучении интерпретируемого словаря мы представляем новую технику обучения SAE, p-отжиг, которая улучшает производительность по сравнению с предыдущими ненадзорными метриками, а также нашими новыми метриками.