Ежедневно отобранные исследовательские статьи по ИИ с переводами
Редактирование изображений включает в себя различные сложные задачи и требует эффективных и точных техник манипуляции. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально надежным интерфейсом, позволяющим осуществлять редактирование операций (например, вставка элементов, стирание объектов, изменение цвета) с минимальным вводом. Эти взаимодействия контролируются мультимодельной моделью большого языка (MLLM), чтобы предвидеть намерения редактирования в реальном времени, обходя необходимость явного ввода подсказки. Наконец, мы применяем мощный диффузионный приоритет, улучшенный тщательно выученным двухветвевым модулем подключения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных редакций изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.
Данная работа исследует расширение возможностей крупных языковых моделей (LLM), предварительно обученных на тексте, для генерации трехмерных сеток в рамках единой модели. Это предлагает ключевые преимущества в (1) использовании пространственных знаний, уже встроенных в LLM, полученных из текстовых источников, таких как трехмерные учебники, и (2) обеспечении разговорной генерации 3D и понимания сеток. Основным вызовом является эффективная токенизация данных трехмерных сеток на дискретные токены, которые LLM могут обрабатывать без проблем. Для решения этой проблемы мы представляем подход LLaMA-Mesh, который представляет координаты вершин и определения граней трехмерных сеток в виде обычного текста, позволяя прямую интеграцию с LLM без расширения словаря. Мы создаем набор данных для надзорного дообучения (SFT), позволяющий предварительно обученным LLM (1) генерировать трехмерные сетки по текстовым подсказкам, (2) производить чередующиеся текстовые и трехмерные выходы по мере необходимости и (3) понимать и интерпретировать трехмерные сетки. Наша работа первой демонстрирует, что LLM могут быть дообучены для приобретения сложных пространственных знаний для генерации трехмерных сеток в текстовом формате, эффективно объединяя трехмерные и текстовые модальности. LLaMA-Mesh достигает качества генерации сеток на уровне моделей, обученных с нуля, сохраняя при этом высокую производительность генерации текста.
По мере увеличения размеров языковых моделей расширяется их словарный запас. Это приводит к неравномерному увеличению объема памяти, необходимого для обучения крупномасштабных языковых моделей, в одном единственном слое: кросс-энтропия в вычислении потерь. Кросс-энтропия формирует матрицу логитов с записями для каждой пары входных токенов и элементов словаря, и для небольших моделей потребляет на порядок больше памяти, чем все остальное в языковой модели в совокупности. Мы предлагаем метод Cut Cross-Entropy (CCE), который вычисляет потери кросс-энтропии, не создавая логиты для всех токенов в глобальной памяти. Вместо этого CCE вычисляет логит только для правильного токена и оценивает лог-сумму-экспоненту по всем логитам на лету. Мы реализуем специальное ядро, которое выполняет умножение матриц и сокращение лог-суммы-экспоненты по словарю во флэш-памяти, что делает объем памяти для вычисления кросс-энтропии практически незначительным. Это имеет драматический эффект. На примере модели Gemma 2 (2B) CCE снижает объем памяти, необходимый для вычисления потерь, с 24 ГБ до 1 МБ, а общее потребление памяти для обучения классификатора с 28 ГБ до 1 ГБ. Для увеличения производительности CCE мы используем встроенную разреженность софтмакса и предлагаем пропускать элементы вычисления градиента, которые имеют незначительный вклад (т.е. ниже числовой точности) в градиент. Эксперименты показывают, что драматическое снижение потребления памяти достигается без ущерба скорости обучения или сходимости.
Большие языковые модели (LLM) обладают большим потенциалом для революции текущих клинических систем благодаря своим превосходным возможностям в обработке медицинских текстов и медицинских лицензионных экзаменах. Тем временем традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном применяются в клинических задачах прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Таким образом, мы создаем новый бенчмарк ClinicalBench для всестороннего изучения возможностей клинического прогностического моделирования как общего назначения, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три общих клинических задачи прогнозирования, две базы данных, 14 LLM общего назначения, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как LLM общего назначения, так и медицинские LLM, даже при различных масштабах моделей, различных стратегиях подсказок или донастройки, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их потенциальные недостатки в клиническом мышлении и принятии решений. Мы призываем к осторожности при применении LLM в клинических приложениях. ClinicalBench может быть использован для сокращения разрыва между развитием LLM для здравоохранения и клинической практикой в реальном мире.
Видеозаписи пользовательской деятельности, особенно записи рабочего стола, представляют собой богатый источник данных для понимания поведения пользователей и автоматизации процессов. Однако, несмотря на прогресс в моделях видение-язык (VLM) и их все более широкое использование в анализе видео, извлечение действий пользователя из записей рабочего стола остается малоизученной областью. В данной статье рассматривается этот пробел путем предложения двух новых методов извлечения действий пользователя на основе VLM: прямой метод на основе кадров (DF), который подает выборочные кадры непосредственно в VLM, и дифференциальный метод на основе кадров (DiffF), который включает явные различия кадров, обнаруженные с помощью техник компьютерного зрения. Мы оцениваем эти методы, используя базовый самостоятельно подготовленный набор данных и продвинутый бенчмарк, адаптированный из предыдущих работ. Наши результаты показывают, что метод DF достигает точности от 70% до 80% в идентификации действий пользователя, причем извлеченные последовательности действий могут быть воспроизведены с помощью роботизированной автоматизации процессов. Мы обнаружили, что хотя VLM показывают потенциал, включение явных изменений пользовательского интерфейса может снизить производительность, что делает метод DF более надежным. Эта работа представляет собой первое применение VLM для извлечения последовательностей действий пользователя из записей рабочего стола, внося новые методы, бенчмарки и идеи для будущих исследований.
Хотя модели диффузии могут генерировать замечательно качественные образцы, они внутренне ограничены своей дорогостоящей итеративной процедурой выборки. Модели согласованности (CM), недавно появившиеся как многообещающий метод дистилляции моделей диффузии, снижают стоимость выборки, генерируя высококачественные образцы всего за несколько итераций. Дистилляция моделей согласованности направлена на решение обыкновенного дифференциального уравнения потока вероятности (ODE), определенного существующей моделью диффузии. Модели CM не обучаются напрямую для минимизации ошибки по отношению к решателю ODE, а используют более вычислительно доступную цель. Для изучения того, насколько эффективно модели CM решают уравнение потока вероятности ODE и какое влияние оказывает любая вызванная ошибка на качество сгенерированных образцов, мы представляем прямые модели CM, которые напрямую минимизируют эту ошибку. Интригующим образом, мы обнаружили, что прямые модели CM уменьшают ошибку решения ODE по сравнению с моделями CM, но также приводят к значительно худшему качеству образцов, что ставит под сомнение, почему именно модели CM работают хорошо с самого начала. Полный код доступен по ссылке: https://github.com/layer6ai-labs/direct-cms.
Движение к автоматизации операций в сотовых сетях возросло с увеличением сложности этих систем. Несмотря на достижения, полная автономия в настоящее время остается недостижимой из-за зависимости от человеческого вмешательства при моделировании поведения сети и определении политик для достижения целевых требований. Цифровые близнецы сети (Network Digital Twins, NDTs) показали перспективы в улучшении сетевой интеллектуальности, однако успешная реализация этой технологии ограничивается архитектурами, специфичными для конкретных случаев использования, что ограничивает ее роль в продвижении автономии сети. Для обеспечения более способной сетевой интеллектуальности, или "телекоммуникационного мозга", необходимо обеспечить беспрепятственное, автономное управление сотовой сетью. Большие языковые модели (Large Language Models, LLMs) появились как потенциальные возможности для этой задачи, но сталкиваются с проблемами в моделировании сети, особенно в рассуждениях и обработке различных типов данных. Для решения этих пробелов мы представляем Hermes, цепочку агентов LLM, которая использует "чертежи" для создания экземпляров NDT через структурированные и объяснимые логические шаги. Hermes позволяет автоматическое, надежное и точное моделирование сети для различных случаев использования и конфигураций, тем самым отмечая прогресс в направлении полностью автономных операций сети.