Ежедневно отобранные исследовательские статьи по ИИ с переводами
Прорыв OpenAI o1 подчеркивает потенциал улучшения рассуждений для повышения производительности LLM. Тем не менее, большинство исследований в области рассуждений сосредоточены на математических задачах, оставляя области, такие как медицина, недостаточно исследованными. Медицинская область, хотя и отличается от математики, также требует надежных рассуждений для предоставления достоверных ответов, учитывая высокие стандарты здравоохранения. Однако проверка медицинских рассуждений представляет собой сложную задачу, в отличие от математических. Для решения этой проблемы мы предлагаем верифицируемые медицинские задачи с медицинским верификатором для проверки корректности выходных данных модели. Этот верифицируемый характер позволяет продвигаться в области медицинских рассуждений через двухэтапный подход: (1) использование верификатора для направления поиска сложной траектории рассуждений для настройки LLM, (2) применение обучения с подкреплением (RL) с наградами на основе верификатора для дальнейшего улучшения сложных рассуждений. Наконец, мы представляем HuatuoGPT-o1, медицинский LLM, способный к сложным рассуждениям, который превосходит общие и медицинские базовые уровни, используя всего 40 тыс. верифицируемых задач. Эксперименты показывают, что сложные рассуждения улучшают решение медицинских проблем и более эффективно используют RL. Мы надеемся, что наш подход вдохновит прогресс в области рассуждений в медицинских и других специализированных областях.
Мы представляем 1,58-битный FLUX, первый успешный подход к квантованию передовой модели генерации текста в изображение, FLUX.1-dev, с использованием весов 1,58 бит (т.е. значений в {-1, 0, +1}), сохраняя при этом сопоставимую производительность при генерации изображений размером 1024 x 1024. Следует отметить, что наш метод квантования работает без доступа к изображениям, полагаясь исключительно на самонадзор от модели FLUX.1-dev. Кроме того, мы разработали специализированное ядро, оптимизированное для операций с 1,58-битами, достигнув уменьшения объема хранения модели в 7,7 раз, уменьшения памяти для вывода в 5,1 раз и улучшения задержки вывода. Обширные оценки на бенчмарках GenEval и T2I Compbench демонстрируют эффективность 1,58-битного FLUX в поддержании качества генерации при значительном улучшении вычислительной эффективности.
На основе основ языкового моделирования в обработке естественного языка Next Token Prediction (NTP) развился в универсальную цель обучения для задач машинного обучения в различных модальностях, достигнув значительного успеха. Поскольку Large Language Models (LLMs) продвигаются в объединении задач понимания и генерации в текстовой модальности, недавние исследования показали, что задачи из различных модальностей также могут быть эффективно включены в рамки NTP, преобразуя мультимодальную информацию в токены и предсказывая следующий токен в контексте. В данном обзоре представлена обширная таксономия, объединяющая как понимание, так и генерацию в мультимодальном обучении через призму NTP. Предложенная таксономия охватывает пять ключевых аспектов: мультимодальную токенизацию, архитектуры моделей MMNTP, унифицированное представление задач, наборы данных и оценку, а также открытые вызовы. Эта новая таксономия призвана помочь исследователям в изучении мультимодального интеллекта. Связанный репозиторий GitHub, собирающий последние статьи и репозитории, доступен по ссылке https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
Ориентация является ключевым атрибутом объектов, важным для понимания их пространственного положения и расположения на изображениях. Однако практические решения для точной оценки ориентации из одного изображения остаются недостаточно исследованными. В данной работе мы представляем Orient Anything, первую экспертную и фундаментальную модель, разработанную для оценки ориентации объекта на одиночном и свободном изображении. Из-за недостатка размеченных данных мы предлагаем извлекать знания из трехмерного мира. Разработав процесс аннотирования передней грани трехмерных объектов и создания изображений с произвольных точек зрения, мы собрали 2 миллиона изображений с точными аннотациями ориентации. Для полного использования набора данных мы разработали надежную целевую функцию обучения, которая моделирует трехмерную ориентацию как вероятностные распределения трех углов и предсказывает ориентацию объекта, подгоняясь под эти распределения. Кроме того, мы используем несколько стратегий для улучшения передачи синтетических данных в реальные. Наша модель достигает передовой точности оценки ориентации как на сгенерированных, так и на реальных изображениях, и проявляет впечатляющую способность к нулевому обучению в различных сценариях. Более того, наша модель улучшает множество приложений, таких как понимание и генерация сложных пространственных концепций и коррекция позы трехмерных объектов.
Текущие мультимодальные модели языка большого масштаба (MLLM) испытывают затруднения с детализированным или точным пониманием визуальных данных, хотя они обеспечивают всестороннее восприятие и рассуждения в широком спектре приложений в области зрения. Недавние исследования либо разрабатывают инструменты, либо объединяют конкретные визуальные задачи в авторегрессионную структуру, часто за счет общей мультимодальной производительности. Для решения этой проблемы и улучшения MLLM с визуальными задачами масштабируемым образом, мы предлагаем оптимизацию предпочтений задач (Task Preference Optimization, TPO), новый метод, который использует дифференцируемые предпочтения задач, происходящие из типичных детализированных визуальных задач. TPO вводит обучаемые токены задач, которые устанавливают связи между несколькими задаче-специфическими "головами" и MLLM. Используя богатые визуальные метки во время обучения, TPO значительно улучшает мультимодальные возможности MLLM и производительность по задачам. Через совместное обучение нескольких задач в рамках TPO мы наблюдаем синергетические преимущества, которые повышают производительность индивидуальных задач за пределы того, что достижимо с помощью методологий обучения с одной задачей. Наша реализация этого подхода с VideoChat и LLaVA демонстрирует общее улучшение мультимодальной производительности на 14,6% по сравнению с базовыми моделями. Кроме того, MLLM-TPO демонстрирует надежные возможности нулевого обучения на различных задачах, проявляя сравнимую производительность с передовыми моделями с учителем. Код будет опубликован на https://github.com/OpenGVLab/TPO.
В данной работе мы исследуем автоматическое компонование дизайна из мультимодальных графических элементов. Хотя недавние исследования разработали различные генеративные модели для графического дизайна, они обычно сталкиваются с следующими ограничениями: они сосредотачиваются только на определенных подзадачах и далеки от выполнения задачи компоновки дизайна; они не учитывают иерархическую информацию графических дизайнов в процессе генерации. Для решения этих проблем мы внедряем принцип слоистого дизайна в Большие Мультимодальные Модели (LMMs) и предлагаем новый подход, названный LaDeCo, для выполнения этой сложной задачи. Конкретно, LaDeCo сначала выполняет планирование слоев для заданного набора элементов, разделяя входные элементы на различные семантические слои в соответствии с их содержанием. На основе результатов планирования он затем предсказывает атрибуты элементов, контролирующие компоновку дизайна слой за слоем, и включает отрендеренное изображение ранее сгенерированных слоев в контекст. Благодаря этому проницательному дизайну LaDeCo разбивает сложную задачу на более мелкие управляемые шаги, что делает процесс генерации более плавным и понятным. Экспериментальные результаты демонстрируют эффективность LaDeCo в компоновке дизайна. Более того, мы показываем, что LaDeCo позволяет реализовать некоторые интересные приложения в графическом дизайне, такие как коррекция разрешения, заполнение элементов, вариация дизайна и т. д. Кроме того, он даже превосходит специализированные модели в некоторых подзадачах дизайна без какого-либо обучения, специфичного для задачи.
Персонализированная генерация видео с нулевой настройкой привлекла значительное внимание благодаря своему значительному потенциалу применения. Существующие методы полагаются на дополнительные модели для извлечения и внедрения характеристик ссылочного объекта, предполагая, что модель диффузии видео (Video Diffusion Model, VDM) сама по себе недостаточна для персонализированной генерации видео с нулевой настройкой. Однако эти методы часто испытывают затруднения в поддержании последовательного внешнего вида объекта из-за неоптимальных техник извлечения и внедрения характеристик. В данной статье мы показываем, что VDM по своей природе обладает способностью извлекать и внедрять характеристики объекта. Отходя от предыдущих эвристических подходов, мы представляем новую структуру, которая использует врожденную способность VDM для обеспечения высококачественной персонализированной генерации видео с нулевой настройкой. Конкретно, для извлечения характеристик мы напрямую вводим ссылочные изображения в VDM и используем его внутренний процесс извлечения характеристик, который не только обеспечивает мелкозернистые характеристики, но также значительно соответствует предварительным знаниям VDM. Для внедрения характеристик мы разрабатываем инновационное двустороннее взаимодействие между характеристиками объекта и созданным контентом через пространственное самовнимание в VDM, обеспечивая, что VDM имеет лучшую верность объекта, сохраняя при этом разнообразие созданного видео. Эксперименты как на персонализированной генерации видео с человеком, так и с объектом подтверждают эффективность нашей структуры.
Взрыв Кембрийской эры легко доступных предварительно обученных моделей диффузии подразумевает потребность в методах, которые объединяют несколько различных предварительно обученных моделей диффузии без значительной вычислительной нагрузки на повторное обучение более крупной объединенной модели. В данной статье мы формулируем проблему объединения нескольких предварительно обученных моделей диффузии на этапе генерации в рамках новой предложенной концепции, названной суперпозиция. Теоретически мы выводим суперпозицию из строгих первопринципных положений, вытекающих из знаменитого уравнения непрерывности, и разрабатываем два новых алгоритма, специально созданных для объединения моделей диффузии в SuperDiff. SuperDiff использует новый масштабируемый оценщик плотности Ито для логарифма правдоподобия уравнения диффузии SDE, что не влечет за собой дополнительных накладных расходов по сравнению с хорошо известным оценщиком Хатчинсона, необходимым для вычислений расхождений. Мы демонстрируем, что SuperDiff масштабируется на большие предварительно обученные модели диффузии, поскольку суперпозиция выполняется исключительно через композицию во время вывода, и также обладает простой реализацией, поскольку объединяет различные предварительно обученные векторные поля через автоматизированную схему повторного взвешивания. Особенно отметим, что SuperDiff эффективен во время вывода и имитирует традиционные операторы композиции, такие как логическое ИЛИ и логическое И. Мы эмпирически демонстрируем полезность использования SuperDiff для генерации более разнообразных изображений на CIFAR-10, более точного редактирования изображений с использованием Stable Diffusion и улучшенного безусловного проектирования структуры белков. https://github.com/necludov/super-diffusion
Калибровка больших языковых моделей (LLM) для последующих задач широко применяется, но часто приводит к ухудшению безопасности в моделях, ориентированных на безопасность. В настоящее время множество решений решают эту проблему путем включения дополнительных данных о безопасности, что может быть непрактично во многих случаях. В данной статье мы рассматриваем вопрос: Как можно улучшить производительность последующих задач, сохраняя при этом безопасность в LLM без использования дополнительных данных о безопасности? Мы предлагаем простой и эффективный метод, который сохраняет врожденную безопасность LLM, улучшая при этом их производительность в последующих задачах: объединение весов предварительно и после калибровки моделей, ориентированных на безопасность. Экспериментальные результаты по различным последующим задачам, моделям и методам объединения демонстрируют, что этот подход эффективно смягчает ухудшение безопасности, улучшая производительность в последующих задачах и предлагая практическое решение для адаптации LLM, ориентированных на безопасность.
Извлечение данных из графов критически важно для расширения больших языковых моделей (LLM) как открытыми знаниями, так и данными частных предприятий, и также является ключевым компонентом недавней системы GraphRAG (Edge и др., 2024). Несмотря на десятилетия исследований по знаниевым графам и ответам на вопросы баз знаний, ведущие фреймворки LLM (например, Langchain и LlamaIndex) имеют лишь минимальную поддержку для извлечения данных из современных энциклопедических знаниевых графов, таких как Wikidata. В данной статье мы анализируем коренные причины и предлагаем, что современные знаниевые графы RDF (например, Wikidata, Freebase) менее эффективны для LLM из-за чрезмерно больших схем, значительно превышающих типичное окно контекста LLM, использования идентификаторов ресурсов, перекрывающихся типов отношений и отсутствия нормализации. В качестве решения мы предлагаем представления графов свойств поверх базового графа RDF, которые могут быть эффективно запрошены LLM с использованием языка запросов Cypher. Мы реализовали эту идею на Wikidata и представили CypherBench, первый бенчмарк с 11 крупномасштабными, мультидоменными графами свойств, содержащими 7,8 миллионов сущностей и более 10 000 вопросов. Для достижения этой цели мы решали несколько ключевых задач, включая разработку движка преобразования RDF в граф свойств, создание систематического конвейера для генерации задач текст-к-Cypher и разработку новых метрик оценки.
Построение крупномасштабного набора данных для вопросов и ответов на основе фигур требует значительного объема работы, начиная с сбора и выбора фигур, извлечения атрибутов, таких как текст, числа и цвета, и создания вопросов и ответов. Хотя последние достижения в области языковых моделей с преимущественным вниманием к генерации вопросов и ответов привели к попыткам синтезировать фигуры, большинство из них сосредоточены именно на генерации вопросов и ответов. Кроме того, создание фигур непосредственно с использованием языковых моделей часто сталкивается с проблемами, такими как ошибки в коде, похожие фигуры и повторяющийся контент в фигурах. Для решения этой проблемы мы представляем SBSFigures (Stage-by-Stage Synthetic Figures), набор данных для предварительного обучения в области вопросов и ответов на основе фигур. Наш предложенный конвейер позволяет создавать графические фигуры с полными аннотациями визуализируемых данных и плотными аннотациями вопросов и ответов без какого-либо ручного процесса аннотирования. Наш конвейер поэтапного создания позволяет эффективно создавать разнообразные фигуры по темам и внешнему виду, минимизируя ошибки в коде. Наши SBSFigures демонстрируют сильный эффект предварительного обучения, что позволяет достичь эффективного обучения с ограниченным объемом реальных данных о графиках, начиная с наших предварительно обученных весов.