Ежедневно отобранные исследовательские статьи по ИИ с переводами
Данный документ рассматривает важную проблему добавления объекта на изображения только с помощью текстового руководства. Это вызывает трудности, поскольку новый объект должен быть интегрирован бесшовно в изображение с согласованным визуальным контекстом, таким как освещение, текстура и пространственное расположение. Существующие методы заполнения изображения с помощью текстового руководства могут добавлять объекты, однако они либо не сохраняют согласованность фона, либо требуют громоздкого вмешательства человека для указания ограничивающих рамок или масок, нарисованных пользователем. Для решения этой проблемы мы представляем Diffree, модель Text-to-Image (T2I), которая облегчает добавление объекта с помощью текстового управления. Для этого мы создаем OABench, изысканный синтетический набор данных, удаляя объекты с помощью передовых техник заполнения изображения. OABench включает 74 тыс. кортежей реального мира: исходное изображение, изображение с заполнением, где объект удален, маска объекта и описание объекта. Обученная на OABench с использованием модели Stable Diffusion с дополнительным модулем предсказания маски, Diffree уникально предсказывает положение нового объекта и достигает добавления объекта с помощью только текста. Обширные эксперименты показывают, что Diffree превосходит в добавлении новых объектов с высокой успешностью, сохраняя согласованность фона, пространственную соответственность и качество и релевантность объекта.
Мы представляем "LAMBDA" - новую систему анализа данных с несколькими агентами без кода с открытым исходным кодом, которая использует мощь больших моделей. LAMBDA разработана для решения задач анализа данных в сложных приложениях, основанных на данных, с помощью инновационно разработанных агентов данных, которые работают итеративно и генеративно с использованием естественного языка. В основе LAMBDA лежат две ключевые роли агентов: программист и инспектор, которые спроектированы для безупречной совместной работы. Конкретно, программист создает код на основе инструкций пользователя и предметных знаний, улучшенных передовыми моделями. Тем временем инспектор отлаживает код при необходимости. Для обеспечения надежности и обработки неблагоприятных сценариев LAMBDA имеет пользовательский интерфейс, который позволяет прямое вмешательство пользователя в операционный цикл. Кроме того, LAMBDA может гибко интегрировать внешние модели и алгоритмы через наш механизм интеграции знаний, удовлетворяя потребности в индивидуальном анализе данных. LAMBDA продемонстрировала высокую производительность на различных наборах данных машинного обучения. У нее есть потенциал улучшить практику и парадигму анализа данных, интегрируя человеческий и искусственный интеллект, делая ее более доступной, эффективной и эффективной для лиц с различными фонами. Высокая производительность LAMBDA в решении проблем анализа данных демонстрируется в нескольких кейс-стади, представленных на https://www.polyu.edu.hk/ama/cmfai/lambda.html.
Недавние достижения в области крупных языковых моделей (LLM) открыли новые возможности для применения мультиагентных систем в очень масштабных симуляциях. Однако существует несколько вызовов при проведении мультиагентных симуляций с использованием существующих платформ, таких как ограниченная масштабируемость и низкая эффективность, недостаточное разнообразие агентов и трудоемкие процессы управления. Для решения этих вызовов мы разрабатываем несколько новых функций и компонентов для AgentScope, удобной для пользователя мультиагентной платформы, улучшая ее удобство и гибкость для поддержки очень масштабных мультиагентных симуляций. В частности, мы предлагаем акторную распределенную механику в качестве базовой технологической инфраструктуры для обеспечения высокой масштабируемости и эффективности, а также предоставляем гибкую среду поддержки для симуляции различных сценариев реального мира, что позволяет параллельное выполнение нескольких агентов, централизованную оркестрацию рабочего процесса и взаимодействие как между агентами, так и между агентами и окружающей средой. Более того, мы интегрируем удобный настраиваемый инструмент и автоматический конвейер генерации фона в AgentScope, упрощая процесс создания агентов с разнообразными, но детальными настройками фона. Наконец, мы предоставляем веб-интерфейс для удобного мониторинга и управления большим количеством агентов, которые могут быть развернуты на нескольких устройствах. Мы проводим комплексную симуляцию для демонстрации эффективности предложенных улучшений в AgentScope и предоставляем подробные наблюдения и обсуждения для выявления большого потенциала применения мультиагентных систем в масштабных симуляциях. Исходный код доступен на GitHub по ссылке https://github.com/modelscope/agentscope для вдохновления дальнейших исследований и разработок в области масштабных мультиагентных симуляций.
Обучаясь на обширных наборах данных, методы нулевой моноцулярной оценки глубины (MDE) демонстрируют надежные результаты в реальных условиях, но часто страдают от недостаточно точных деталей. Хотя недавние подходы к MDE на основе диффузии обладают привлекательной способностью извлечения деталей, они все еще испытывают трудности в геометрически сложных сценах из-за сложности получения надежных геометрических априорных данных из разнообразных наборов данных. Для того чтобы использовать дополняющие преимущества обоих подходов, мы предлагаем BetterDepth для эффективного достижения геометрически правильной производительности MDE, инвариантной к аффинным преобразованиям, сохраняя при этом мелкозернистые детали. Конкретно, BetterDepth представляет собой условный диффузионный улучшитель, который принимает прогноз от предварительно обученных моделей MDE в качестве условия глубины, где глобальный контекст глубины хорошо учитывается, и итеративно улучшает детали на основе входного изображения. Для обучения такого улучшителя мы предлагаем методы глобального предварительного выравнивания и локальной маскировки патчей для обеспечения верности BetterDepth к условиям глубины при обучении захвата мелкозернистых деталей сцены. Благодаря эффективному обучению на небольших синтетических наборах данных, BetterDepth достигает передовой производительности нулевой MDE на разнообразных общедоступных наборах данных и сценах в естественных условиях. Более того, BetterDepth может улучшить производительность других моделей MDE путем простого подключения без дополнительного повторного обучения.
Искусственные интеллектуальные агенты привлекают все больше внимания, в основном благодаря их способности воспринимать окружающую среду, понимать задачи и автономно достигать целей. Для продвижения исследований по искусственным интеллектуальным агентам в мобильных сценариях мы представляем Android Multi-annotation EXpo (AMEX) - обширный масштабный набор данных, разработанный для универсальных мобильных агентов управления графическим интерфейсом пользователя (GUI). Их способности выполнять сложные задачи путем прямого взаимодействия с GUI на мобильных устройствах обучаются и оцениваются с использованием предложенного набора данных. AMEX включает более 104 тыс. высокоразрешенных скриншотов из 110 популярных мобильных приложений, которые аннотированы на нескольких уровнях. В отличие от существующих наборов данных для управления мобильными устройствами, таких как MoTIF, AitW и др., AMEX включает три уровня аннотаций: привязку интерактивных элементов GUI, описания экрана и функциональности элементов GUI, а также сложные инструкции на естественном языке, каждая из которых включает в себя в среднем 13 шагов с последовательными цепочками действий GUI. Мы разработали этот набор данных с более информативной и детальной перспективы, дополняя общие настройки существующих наборов данных. Кроме того, мы разработали базовую модель SPHINX Agent и сравнили ее производительность с агентами последнего поколения, обученными на других наборах данных. Для упрощения дальнейших исследований мы открыли исходный код нашего набора данных, моделей и соответствующих инструментов оценки. Проект доступен по адресу https://yuxiangchai.github.io/AMEX/
Риск возникновения вредного контента, создаваемого большими языковыми моделями (LLM), становится критической проблемой. В данной статье представлено систематическое исследование оценки и улучшения способности LLM выполнять задачу коррекции курса, то есть модель может самостоятельно избегать создания вредного контента. Для начала мы представляем бенчмарк C^2-Eval для количественной оценки и анализируем 10 популярных LLM, выявляя различную компетентность текущих LLM, настроенных на безопасность, в коррекции курса. Для улучшения мы предлагаем донастройку LLM с использованием обучения предпочтениям, акцентируя внимание на предпочтение своевременной коррекции курса. С помощью автоматизированного конвейера мы создаем C^2-Syn, синтетический набор данных с 750 тыс. парами предпочтений, чтобы обучить модели концепции своевременной коррекции курса через обучение предпочтениям на основе данных. Эксперименты на 2 LLM, Llama2-Chat 7B и Qwen2 7B, показывают, что наш метод эффективно улучшает навыки коррекции курса без влияния на общую производительность. Кроме того, он эффективно улучшает безопасность LLM, особенно в сопротивлении атакам на обход защиты.
Данные для предварительного обучения сильнейших современных языковых моделей непрозрачны. В частности, мало известно о пропорциях различных областей или языков, представленных в данных. В данной работе мы решаем задачу, которую мы называем выводом смеси данных, направленную на выявление распределения состава обучающих данных. Мы представляем новую атаку на основе ранее незамеченного источника информации - токенизаторов на основе кодирования байт-пар (BPE), используемых подавляющим большинством современных языковых моделей. Наш ключевой инсайт заключается в том, что упорядоченный список правил объединения, изученных токенизатором BPE, естественным образом раскрывает информацию о частоте токенов в его обучающих данных: первая операция объединения - самая распространенная пара байтов, вторая - самая распространенная пара после объединения первого токена и так далее. Учитывая список объединений токенизатора вместе с образцами данных для каждой интересующей категории, мы формулируем линейную программу, которая решает пропорции каждой категории в обучающем наборе токенизатора. Важно отметить, что в той степени, в которой данные обучения токенизатора представляют предварительные данные, мы косвенно узнаем о предварительных данных. В контролируемых экспериментах мы показываем, что наша атака восстанавливает соотношения смеси с высокой точностью для токенизаторов, обученных на известных смесях естественных языков, языков программирования и источников данных. Затем мы применяем наш подход к готовым токенизаторам, выпущенным с недавними языковыми моделями. Мы подтверждаем много публично раскрытой информации о этих моделях, а также делаем несколько новых выводов: токенизатор GPT-4o гораздо более многоязычен, чем его предшественники, обучаясь на 39% неанглоязычных данных; Llama3 расширяет токенизатор GPT-3.5 в основном для многоязычного использования (48%); токенизаторы GPT-3.5 и Claude обучены в основном на коде (~60%). Мы надеемся, что наша работа проливает свет на текущие практики проектирования данных для предварительного обучения и вдохновляет на продолжение исследований в области вывода смеси данных для языковых моделей.
В области моделей больших видео-языковых моделей (LVLM) для следования инструкциям эффективное развертывание этих моделей сталкивается с вызовами, в частности из-за высоких требований к памяти их кэшей ключ-значение (KV). Традиционные стратегии управления кэшем для LLM сосредотачиваются на вытеснении кэша, что часто не удовлетворяет специфическим потребностям мультимодальных моделей следования инструкциям. Определяя этот пробел, в данной статье мы представляем Elastic Cache, новый подход, который выигрывает от применения различных методов ускорения для этапов кодирования инструкций и генерации вывода. Мы исследуем важные метрики в различных этапах и предлагаем стратегию слияния кэша, управляемую важностью, для обрезки избыточных кэшей. Вместо того чтобы отбрасывать менее важные кэши, наша стратегия выделяет важные векторы ключей/значений как опорные точки. Окружающие менее важные кэши затем объединяются с этими опорными точками, улучшая сохранение контекстуальной информации в кэшах KV и обеспечивая произвольное соотношение ускорения. Для кодирования инструкций мы используем частоту для оценки важности кэшей. Что касается генерации вывода, мы отдаем предпочтение токенам на основе их расстояния с смещением, при котором как первоначальные, так и самые последние токены сохраняются. Результаты на ряде LVLM показывают, что Elastic Cache не только повышает эффективность, но также значительно превосходит существующие методы обрезки в генерации языка по различным задачам. Код доступен по ссылке https://github.com/liuzuyan/ElasticCache
Недавние достижения значительно улучшили возможности мультимодальных крупных языковых моделей (MLLMs) в создании и понимании контента изображений в тексте. Несмотря на эти успехи, прогресс в основном ограничен английским языком из-за недостатка высококачественных мультимодальных ресурсов на других языках. Это ограничение затрудняет разработку конкурентоспособных моделей на языках, таких как арабский. Для устранения этой ситуации мы представляем эффективного арабского мультимодального помощника под названием Dallah, который использует передовую языковую модель на основе LLaMA-2 для облегчения мультимодального взаимодействия. Dallah демонстрирует передовые результаты в арабских MLLMs. Путем настройки шести арабских диалектов Dallah показывает свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы. Модель превосходит в двух бенчмарк-тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов. Помимо своей надежной производительности в задачах мультимодального взаимодействия, Dallah имеет потенциал проложить путь для дальнейшего развития арабских MLLMs, учитывающих диалекты.
Сегментация ядер клеток на изображениях тканей, окрашенных кровяным красителем гематоксилином и эозином (H&E), является важной для различных клинических приложений и анализов. Из-за сложных характеристик клеточной морфологии большое рецептивное поле считается ключевым для создания высококачественной сегментации. Однако ранее разработанные методы сталкиваются с проблемами в достижении баланса между рецептивным полем и вычислительной нагрузкой. Для решения этой проблемы мы предлагаем LKCell, метод сегментации клеток высокой точности и эффективности. Его основная идея заключается в раскрытии потенциала больших ядер свертки для достижения вычислительно эффективных больших рецептивных полей. Конкретно, (1) Мы впервые переносим предварительно обученные модели больших ядер свертки в медицинскую область, демонстрируя их эффективность в сегментации клеток. (2) Мы анализируем избыточность предыдущих методов и разрабатываем новый декодер сегментации на основе больших ядер свертки. Он достигает более высокой производительности, существенно сокращая количество параметров. Мы оцениваем наш метод на самом сложном бенчмарке и достигаем передовых результатов (0.5080 mPQ) в сегментации экземпляров ядер клеток с всего 21.6% FLOPs по сравнению с предыдущим ведущим методом. Наш исходный код и модели доступны по адресу https://github.com/hustvl/LKCell.
Мы представляем обзор совместной задачи FIGNEWS, организованной в рамках конференции ArabicNLP 2024, совместно с ACL 2024. Совместная задача рассматривает аннотацию предвзятости и пропаганды в многоязычных новостных сообщениях. Мы сосредотачиваемся на начальных днях войны Израиля с Газой как на кейс-стади. Задача направлена на поощрение сотрудничества в разработке руководящих принципов аннотации для субъективных задач путем создания структур для анализа разнообразных повествований, выделяя потенциальную предвзятость и пропаганду. В духе поощрения и поддержки разнообразия мы рассматриваем проблему с мультиязычной перспективы, а именно на пяти языках: английском, французском, арабском, иврите и хинди. Всего 17 команд участвовали в двух подзадачах аннотации: предвзятость (16 команд) и пропаганда (6 команд). Команды соревновались в четырех оценочных треках: разработка руководящих принципов, качество аннотации, количество аннотаций и согласованность. Коллективно команды создали 129,800 данных. Обсуждаются ключевые результаты и выводы для области.
Выявление значимых ссылок в сложных взаимосвязях графа цитирования является сложной задачей, которая охватывает связи через цитирование, авторство, ключевые слова и другие атрибуты отношений. Задача отслеживания источника статьи (PST) направлена на автоматизацию идентификации ключевых ссылок для заданных научных статей с использованием передовых методов data mining. На KDD CUP 2024 мы разработали специализированную рекомендательную структуру для задачи PST. Данная структура использует модель нейронного коллаборативного фильтрования (NCF) для генерации окончательных прогнозов. Для обработки текстовых атрибутов статей и извлечения входных признаков для модели мы используем SciBERT, предварительно обученную языковую модель. Согласно экспериментальным результатам, наш метод достиг показателя 0.37814 по метрике Mean Average Precision (MAP), превзойдя базовые модели и заняв 11-е место среди всех участвующих команд. Исходный код доступен публично по адресу https://github.com/MyLove-XAB/KDDCupFinal.