Ежедневно отобранные исследовательские статьи по ИИ с переводами
Понимание научной литературы имеет решающее значение для извлечения целевой информации и получения умозаключений, что значительно способствует научным открытиям. Несмотря на замечательный успех больших языковых моделей (LLM), они сталкиваются с проблемами в понимании научной литературы, в основном из-за (1) отсутствия научных знаний и (2) незнакомости с специализированными научными задачами. Для разработки LLM, специализированных в понимании научной литературы, мы предлагаем гибридную стратегию, которая интегрирует непрерывное предварительное обучение (CPT) и надзорное точное дообучение (SFT), чтобы одновременно внедрить научные знания и улучшить способности следовать инструкциям для задач, специфичных для области. В этом процессе мы выделяем две ключевые проблемы: (1) создание качественных корпусов CPT и (2) генерация разнообразных инструкций SFT. Мы решаем эти проблемы через тщательный конвейер, включающий извлечение текста из PDF, исправление ошибок в разборе содержания, фильтрацию качества и создание синтетических инструкций. Применяя эту стратегию, мы представляем набор LLM: SciLitLLM, специализированных в понимании научной литературы. Эти модели демонстрируют многообещающую производительность на бенчмарках по пониманию научной литературы. Наш вклад троекратный: (1) Мы представляем эффективную структуру, которая интегрирует CPT и SFT для адаптации LLM к пониманию научной литературы, которая также легко может быть адаптирована к другим областям. (2) Мы предлагаем метод синтеза на основе LLM для генерации разнообразных и качественных научных инструкций, что приводит к новому набору инструкций - SciLitIns - для надзорного точного дообучения в мало представленных научных областях. (3) SciLitLLM достигает многообещающих улучшений производительности на бенчмарках по пониманию научной литературы.
Недавние достижения в персонализации текста к изображениям позволили создавать синтез изображений высокого качества и управляемый пользователем для предоставленных концепций. Однако существующие методы все еще испытывают трудности с балансировкой сохранения идентичности и выравнивания текста. Наш подход основан на том, что генерация изображений, выровненных по запросу, требует точного семантического понимания запроса, что включает в себя точную обработку взаимодействий между новым концептом и его окружающими контекстными токенами в текстовом кодировщике CLIP. Для решения этой проблемы мы стремимся правильно внедрить новый концепт во входное пространство вложений текстового кодировщика, что позволит бесшовно интегрировать его с существующими токенами. Мы представляем метод регуляризации контекста (CoRe), который улучшает обучение вложения текста нового концепта путем регуляризации его контекстных токенов в запросе. Это основано на понимании того, что правильные выходные векторы текстового кодировщика для контекстных токенов могут быть достигнуты только в том случае, если вложение текста нового концепта было правильно изучено. CoRe может быть применен к произвольным запросам без необходимости генерации соответствующих изображений, что улучшает обобщение изученного вложения текста. Кроме того, CoRe может служить как техникой оптимизации на этапе тестирования для дальнейшего улучшения генерации для конкретных запросов. Обширные эксперименты показывают, что наш метод превосходит несколько базовых методов как в сохранении идентичности, так и в выравнивании текста. Код будет доступен публично.
Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.
Синтез изображения с видом с спутника на улицу направлен на создание реалистичного изображения улицы из соответствующего изображения с спутника. Хотя стабильные модели диффузии проявили выдающуюся производительность в различных приложениях генерации изображений, их зависимость от входных данных с похожим видом для управления созданной структурой или текстурой ограничивает их применение к сложной задаче синтеза между видами. В данной работе мы предлагаем CrossViewDiff, модель диффузии между видами для синтеза изображения с видом с спутника на улицу. Для решения вызванных большим расхождением между видами вызовов, мы разрабатываем модули оценки структуры сцены с спутника и отображения текстуры между видами для создания структурного и текстурного управления для синтеза изображения с видом на улицу. Мы также разрабатываем процесс денойзинга с управлением между видами, который интегрирует вышеуказанные управления через улучшенный модуль внимания между видами. Для более всесторонней оценки результатов синтеза мы дополнительно разрабатываем метод оценки на основе GPT в качестве дополнения к стандартным метрикам оценки. Мы также исследуем влияние различных источников данных (например, текст, карты, высоты зданий и мультивременные спутниковые изображения) на эту задачу. Результаты на трех общедоступных наборах данных между видами показывают, что CrossViewDiff превосходит текущие передовые методы как по стандартным, так и по метрикам оценки на основе GPT, генерируя высококачественные панорамы улиц с более реалистичными структурами и текстурами в сельских, пригородных и городских сценах. Код и модели этой работы будут опубликованы на https://opendatalab.github.io/CrossViewDiff/.
Языковые модели с высокими ресурсами часто не соответствуют африканскому контексту, где существует критическая необходимость в моделях, которые эффективны, доступны и местно актуальны, даже при значительных ограничениях вычислительных мощностей и данных. В данной статье представлена InkubaLM - небольшая языковая модель с 0,4 миллиарда параметров, которая достигает производительности, сравнимой с моделями с значительно большим количеством параметров и более обширными данными обучения на задачах, таких как машинный перевод, вопросно-ответные системы, AfriMMLU и задача AfriXnli. Заметно, что InkubaLM превосходит многие более крупные модели в анализе тональности и демонстрирует замечательную последовательность на нескольких языках. Эта работа представляет собой значительное продвижение в вызове традиционной парадигмы, согласно которой эффективные языковые модели должны полагаться на значительные ресурсы. Наша модель и наборы данных доступны публично по адресу \url{https://huggingface.co/lelapa} для поощрения исследований и разработок в области языков с ограниченными ресурсами.
Модели трансформеров диффузии (DiTs) перевели архитектуру сети с традиционных UNet на трансформеры, продемонстрировав исключительные возможности в генерации изображений. Хотя DiTs широко применялись в задачах генерации видео высокой четкости, их большой размер параметров затрудняет вывод на периферийных устройствах. Векторное квантование (VQ) может разложить весовую модель на кодовую книгу и назначения, позволяя крайне квантовать веса и значительно сокращать использование памяти. В данной статье мы предлагаем VQ4DiT, быстрый метод векторного квантования после обучения для DiTs. Мы обнаружили, что традиционные методы VQ калибруют только кодовую книгу, не калибруя назначения. Это приводит к неправильному назначению подвекторов весов одному и тому же назначению, обеспечивая несогласованные градиенты для кодовой книги и приводя к неоптимальному результату. Для решения этой проблемы VQ4DiT вычисляет набор кандидатов для каждого подвектора веса на основе евклидового расстояния и восстанавливает подвектор на основе взвешенного среднего. Затем, используя метод калибровки нулевых данных и блоковую калибровку, оптимальное назначение из набора эффективно выбирается при калибровке кодовой книги. VQ4DiT квантует модель DiT XL/2 на одном графическом процессоре NVIDIA A100 за 20 минут до 5 часов в зависимости от различных настроек квантования. Эксперименты показывают, что VQ4DiT устанавливает новый уровень в компромиссе между размером модели и производительностью, квантуя веса с точностью 2 бита, сохраняя приемлемое качество генерации изображений.
Соревнования по распознаванию дикторов VoxCeleb Speaker Recognition Challenges (VoxSRC) были серией ежегодных челленджей и семинаров, которые проходили с 2019 по 2023 год. Основной задачей соревнований было оценка задач распознавания дикторов и диаризации в различных условиях, включая: закрытые и открытые обучающие данные; а также обучение с учителем, самообучение и полу-самообучение для адаптации к домену. Соревнования также предоставляли общедоступные обучающие и оценочные наборы данных для каждой задачи и условия, с выпуском новых тестовых наборов каждый год. В данной статье мы предоставляем обзор этих соревнований, охватывающий: что было исследовано; методы, разработанные участниками соревнования и их эволюцию; а также текущее состояние области верификации дикторов и диаризации. Мы отслеживаем прогресс в производительности за пять выпусков соревнования на общем наборе данных для оценки и предоставляем детальный анализ того, как специальное внимание каждого года влияло на производительность участников. Данная статья предназначена как для исследователей, желающих получить обзор области распознавания дикторов и диаризации, так и для организаторов соревнований, которые хотят воспользоваться успехами и избежать ошибок соревнований VoxSRC. Мы завершаем обсуждением текущих сильных сторон области и открытых задач. Страница проекта: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
Модели с плотными многовекторными представлениями, такие как ColBERT, доказали свою высокую эффективность в информационном поиске. Оценка позднего взаимодействия ColBERT приближается к совместному вниманию запроса-документа, наблюдаемому в кросс-энкодерах, сохраняя при этом эффективность вывода, близкую к традиционным моделям плотного поиска, благодаря своей би-энкодерной архитектуре и недавним оптимизациям в индексации и поиске. В данной статье мы представляем несколько улучшений в архитектуре модели ColBERT и процессе обучения, используя успешные техники в более устоявшейся парадигме модели встраивания с одним вектором, особенно подходящие для гетерогенных мультиязычных данных. Наша новая модель, Jina-ColBERT-v2, демонстрирует высокую производительность в широком спектре задач поиска на английском и мультиязычных данных, снижая требования к хранению до 50% по сравнению с предыдущими моделями.
Суммирование документов - это задача сокращения текстов до кратких и информативных резюме. В данной статье представлен новый набор данных, разработанный для суммирования нескольких научных статей в раздел обзора. Наши вклады: (1) SurveySum, новый набор данных, решающий проблему инструментов доменно-специфического суммирования; (2) два конкретных конвейера для суммирования научных статей в раздел обзора; и (3) оценка этих конвейеров с использованием нескольких метрик для сравнения их производительности. Наши результаты подчеркивают важность этапов высококачественного поиска и влияние различных конфигураций на качество созданных резюме.
Изображения все более становятся основным способом документирования биоразнообразия на планете, предоставляя новые возможности для ускорения научных открытий в области организменной биологии, особенно с появлением крупных моделей видео-языкового восприятия (VLM). Мы исследуем, могут ли предварительно обученные модели VLM помочь ученым в ответе на ряд биологически значимых вопросов без дополнительной настройки. В данной статье мы оцениваем эффективность 12 передовых моделей VLM в области организменной биологии с использованием нового набора данных, VLM4Bio, состоящего из 469 тыс. пар вопрос-ответ, включающего 30 тыс. изображений из трех групп организмов: рыб, птиц и бабочек, охватывающего пять биологически значимых задач. Мы также исследуем влияние применения техник подсказок и тестов на обнаружение рассуждений на производительность моделей VLM, проливая новый свет на возможности текущих передовых моделей VLM в ответе на биологически значимые вопросы с использованием изображений. Код и наборы данных для выполнения всех анализов, описанных в этой статье, можно найти по адресу https://github.com/sammarfy/VLM4Bio.
Обнаружение и атрибуция увеличения температуры из-за изменения климата критически важны для понимания глобального потепления и направления стратегий адаптации. Сложность различения сигналов изменения климата, вызванных человеком, от естественной изменчивости, представляет собой вызов для традиционных подходов к обнаружению и атрибуции (D&A), которые стремятся выявить конкретные "отпечатки пальцев" в переменных климатического ответа. Глубокое обучение предлагает потенциал для выявления этих сложных паттернов в обширных пространственных наборах данных. Однако отсутствие стандартных протоколов затруднило согласованные сравнения между исследованиями. Мы представляем ClimDetect, стандартизированный набор данных из более чем 816 тыс. ежедневных снимков климата, разработанный для повышения точности модели в выявлении сигналов изменения климата. ClimDetect интегрирует различные входные и целевые переменные, использованные в прошлых исследованиях, обеспечивая сравнимость и последовательность. Мы также исследуем применение видовых трансформеров (ViT) к климатическим данным, новый и современный подход в этом контексте. Наши данные и код с открытым доступом служат эталоном для продвижения климатической науки через улучшение оценок моделей. ClimDetect общедоступен через репозиторий данных Huggingface по ссылке: https://huggingface.co/datasets/ClimDetect/ClimDetect.
В данной статье представлен метод CURLoRA, новый подход к настройке крупных языковых моделей (LLM), который использует декомпозицию матрицы CUR в контексте адаптации низкого ранга (LoRA). Наш метод решает две критические проблемы при настройке LLM: смягчение катастрофического забывания в процессе непрерывного обучения и уменьшение количества обучаемых параметров. Мы предлагаем уникальное изменение процесса декомпозиции CUR, используя инвертированные вероятности для выбора столбцов и строк, что действует как неявная регуляризация, и инициализируем матрицу U как нулевую матрицу, затем только настраиваем её. Мы демонстрируем через эксперименты на нескольких наборах данных, что CURLoRA превосходит стандартный LoRA в смягчении катастрофического забывания. Он поддерживает стабильность и производительность модели на различных задачах, существенно уменьшая количество обучаемых параметров. Наши результаты показывают, что CURLoRA достигает очень хорошей и стабильной точности задач, сохраняя неизменными показатели недоумения базовой модели по сравнению с LoRA при непрерывной настройке, особенно в сценариях с ограниченными данными.
По мере развития области искусственного интеллекта, технологии помощи становятся все более широко используемыми во всех отраслях. Здравоохранение не является исключением, и проводится множество исследований для разработки вспомогательных инструментов для медицинских специалистов. Автоматические диагностические системы являются одним из таких полезных инструментов, которые могут помочь с различными задачами, включая сбор информации о пациенте, анализ результатов тестов и постановку диагноза. Однако идея разработки систем, способных предоставлять дифференциальный диагноз, в большинстве исследований была в значительной степени пренебрежена. В данном исследовании мы предлагаем подход на основе трансформера для предоставления дифференциальных диагнозов на основе возраста пациента, пола, медицинской истории и симптомов. Мы используем набор данных DDXPlus, который предоставляет информацию о дифференциальном диагнозе для пациентов на основе 49 типов заболеваний. Во-первых, мы предлагаем метод обработки табличных данных пациента из набора данных и преобразования их в отчеты о пациенте для их адаптации к нашему исследованию. Кроме того, мы вводим два модуля модификации данных для разнообразия тренировочных данных и, следовательно, улучшения устойчивости моделей. Мы подходим к задаче как к проблеме многоклассовой классификации и проводим обширные эксперименты с использованием четырех моделей трансформера. Все модели продемонстрировали многообещающие результаты, достигнув более 97% F1-оценки на тестовом наборе. Более того, мы разрабатываем дополнительные поведенческие тесты для получения более широкого понимания моделей. В частности, для одного из наших тестов мы подготовили специальный тестовый набор из 100 образцов с помощью врача. Результаты на специальном наборе показали, что наши предложенные модули модификации данных улучшили способности обобщения модели. Мы надеемся, что наши результаты предоставят будущим исследователям ценные идеи и вдохновят их разрабатывать надежные системы для автоматического дифференциального диагноза.
Архитектура трансформера революционизировала биоинформатику и способствовала прогрессу в понимании и прогнозировании свойств биомолекул. Почти вся исследовательская работа над крупномасштабными био-последовательностными трансформерами сосредоточена на одной области за раз (одно-омная), обычно нуклеотидах или пептидах. Эти модели имели невероятный успех в последующих задачах в каждой области и достигли особенно значительных прорывов в последовательностях пептидов и структурном моделировании. Однако эти одно-омные модели естественным образом не способны моделировать мульти-омные задачи, одной из наиболее биологически важных из которых являются взаимодействия нуклеотид-пептид. Мы представляем нашу работу по обучению первых мульти-омных фундаментальных моделей нуклеотид-пептидов. Мы показываем, что эти мульти-омные модели (MOMs) могут изучать совместные представления между различными одно-омными распределениями, которые внезапно согласуются с Центральной догмой молекулярной биологии, несмотря на то, что они обучены только на неразмеченных био-последовательностях. Мы далее демонстрируем, что MOMs могут быть донастроены для достижения передовых результатов в задачах взаимодействия пептид-нуклеотид, а именно прогнозирования изменения свободной энергии Гиббса ({\Delta}G) взаимодействия связывания между заданным олигонуклеотидом и пептидом, а также влияния на это взаимодействие связывания в результате мутаций в последовательности олигонуклеотида ({\Delta}{\Delta}G). Замечательно, мы показываем, что мульти-омные био-последовательностные трансформеры внезапно изучают полезную структурную информацию без какого-либо предварительного структурного обучения, что позволяет нам предсказывать, какие остатки пептида наиболее участвуют в взаимодействии связывания пептид-нуклеотид. Наконец, мы предоставляем доказательства того, что мульти-омные био-последовательностные модели не уступают фундаментальным моделям, обученным на одно-омных распределениях, что указывает на более обобщенный или фундаментальный подход к построению этих моделей.
Методы Параметрически Эффективной Настройки (PEFT) стали популярными и демократизировали использование Больших Языковых Моделей (LLM). Недавние исследования показали, что небольшой поднабор весов значительно влияет на производительность. Исходя из этого наблюдения, мы представляем новый метод PEFT, называемый Внедрением Гауссовского Шума для Точных Весов (GIFT-SW). Наш метод обновляет только значимые столбцы, в то время как вводит гауссовский шум в незначимые. Для идентификации этих столбцов мы разработали обобщенную метрику чувствительности, которая расширяет и объединяет метрики из предыдущих исследований. Эксперименты с моделями LLaMA показывают, что GIFT-SW превосходит полную настройку и современные методы PEFT при том же вычислительном бюджете. Более того, GIFT-SW предлагает практические преимущества для восстановления производительности моделей, подвергнутых квантованию смешанной точности, сохраняя точные веса в полной точности.
Сжимая разнообразные повествования, LLM превосходят запоминание, достигая интеллекта за счет захвата обобщенных причинно-следственных связей. Однако они сталкиваются с локальными "пробелами в представлении" из-за недостаточного разнообразия обучающих данных, что ограничивает их практическую применимость в реальном мире, особенно в задачах, требующих строгого соответствия правилам. Традиционные методы выравнивания, основанные на тяжелых человеческих аннотациях, неэффективны и не масштабируемы. Недавние методы самовыравнивания также не идеальны, поскольку они часто зависят от самоотбора на основе подсказок и запоминания. Для решения этих проблем мы представляем Итеративное Графовое Выравнивание (IGA), алгоритм выравнивания на основе правил без аннотаций. Учительская модель (VLM) использует Итеративное Графовое Подсказывание (IGP) для создания логических графов и эталонных ответов. Студенческая модель (LLM) выявляет локальные пробелы в знаниях, пытаясь выровнять свои ответы с этими эталонами, сотрудничая с вспомогательными моделями для генерации разнообразных ответов. Эти выровненные ответы затем используются для итеративного обучения с учителем (SFT). Наши оценки по пяти сценариям на основе правил демонстрируют эффективность IGP, с улучшением выравнивания на 73,12% в Claude Sonnet 3.5 и достижением улучшения на 86,20% для Llama3-8B-Instruct, превосходя Claude Sonnet 3.5 в выравнивании на основе правил.