Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многоагентное обучение с подкреплением (MARL) демонстрирует значительный прогресс в решении кооперативных и конкурентных многоагентных проблем в различных средах. Одним из основных вызовов в MARL является необходимость явного прогнозирования поведения агентов для достижения сотрудничества. Для решения этой проблемы мы предлагаем Shared Recurrent Memory Transformer (SRMT), который расширяет памятьные трансформеры до многоагентных сред, объединяя и глобально транслируя индивидуальные рабочие памяти, позволяя агентам неявно обмениваться информацией и координировать свои действия. Мы оцениваем SRMT на проблеме частично наблюдаемого многоагентного поиска пути в игрушечной задаче узкого участка, требующей от агентов пройти через узкий коридор, а также на наборе задач POGEMA. В задаче узкого участка SRMT последовательно превосходит различные базовые методы обучения с подкреплением, особенно при разреженных вознаграждениях, и эффективно обобщается на более длинные коридоры, чем те, которые виделись во время обучения. На картах POGEMA, включая Лабиринты, Случайные и MovingAI, SRMT конкурентоспособен с недавними алгоритмами MARL, гибридными и планировочными. Эти результаты свидетельствуют о том, что включение общей рекуррентной памяти в архитектуры на основе трансформеров может улучшить координацию в децентрализованных многоагентных системах. Исходный код для обучения и оценки доступен на GitHub: https://github.com/Aloriosa/srmt.
Генерация видео достигла значительных успехов благодаря техникам исправления потока, однако проблемы, такие как неровное движение и несоответствие между видео и подсказками, остаются актуальными. В данной работе мы разрабатываем систематический конвейер, который использует обратную связь от людей для устранения этих проблем и улучшения модели генерации видео. В частности, мы начинаем с создания крупномасштабного набора данных предпочтений людей, сосредоточенного на современных моделях генерации видео, включающего попарные аннотации по многим измерениям. Затем мы представляем VideoReward, многомерную модель вознаграждения для видео, и исследуем, как аннотации и различные дизайнерские решения влияют на ее эффективность в вознаграждении. Из объединенной перспективы обучения с подкреплением с целью максимизации вознаграждения с регуляризацией KL мы представляем три алгоритма выравнивания для моделей на основе потока, расширяя их из моделей диффузии. Сюда входят две стратегии обучения: прямая оптимизация предпочтений для потока (Flow-DPO) и регрессия с взвешенным вознаграждением для потока (Flow-RWR), а также техника времени вывода, Flow-NRG, которая применяет направление вознаграждения непосредственно к шумным видео. Экспериментальные результаты показывают, что VideoReward значительно превосходит существующие модели вознаграждения, а Flow-DPO демонстрирует превосходные результаты по сравнению как с Flow-RWR, так и со стандартными методами обучения с учителем. Кроме того, Flow-NRG позволяет пользователям назначать пользовательские веса для нескольких целей во время вывода, удовлетворяя индивидуальные потребности в качестве видео. Страница проекта: https://gongyeliu.github.io/videoalign.
Мы представляем Sigma, эффективную большую языковую модель, специализированную для системной области, усиленную новой архитектурой, включающей в себя внимание DiffQKV, и предварительно обученную на наших тщательно собранных данных системной области. Внимание DiffQKV значительно повышает эффективность вывода Sigma путем оптимизации компонентов Запроса (Q), Ключа (K) и Значения (V) в механизме внимания дифференцированно, основываясь на их различном влиянии на показатели производительности и эффективности модели. В частности, мы (1) проводим обширные эксперименты, демонстрирующие различную чувствительность модели к сжатию компонентов K и V, что приводит к разработке дифференцированно сжатых KV, и (2) предлагаем дополненный Q для расширения размерности головы Q, что увеличивает емкость представления модели с минимальным влиянием на скорость вывода. Тщательные теоретические и эмпирические анализы показывают, что внимание DiffQKV значительно повышает эффективность, достигая улучшения скорости вывода до 33,36% по сравнению с традиционным групповым вниманием к запросу (GQA) в сценариях с длинным контекстом. Мы предварительно обучаем Sigma на 6T токенах из различных источников, включая 19,5 млрд данных системной области, которые мы тщательно собрали, и 1T токенов синтезированных и переписанных данных. В общих областях Sigma достигает сопоставимой производительности с другими современными моделями. В системной области мы представляем первый всеобъемлющий бенчмарк AIMicius, где Sigma демонстрирует выдающуюся производительность во всех задачах, значительно превосходя GPT-4 с абсолютным улучшением до 52,5%.
Рассуждение по цепочке (CoT) было широко исследовано в крупных моделях для решения сложных задач понимания. Однако остаётся открытым вопрос, можно ли применять такие стратегии для верификации и укрепления сценариев генерации изображений. В данной статье мы представляем первое всестороннее исследование потенциала рассуждения по цепочке для улучшения авторегрессивной генерации изображений. Мы сосредотачиваемся на трёх техниках: масштабирование вычислений на этапе тестирования для верификации, выравнивание предпочтений модели с оптимизацией прямых предпочтений (DPO) и интеграция этих техник для достижения взаимодополняющих эффектов. Наши результаты показывают, что эти подходы могут быть эффективно адаптированы и объединены для значительного улучшения производительности генерации изображений. Более того, учитывая ключевую роль моделей вознаграждения в наших выводах, мы предлагаем модель вознаграждения оценки потенциала (PARM) и PARM++, специализированные для авторегрессивной генерации изображений. PARM адаптивно оценивает каждый шаг генерации через подход оценки потенциала, объединяя преимущества существующих моделей вознаграждения, а PARM++ дополнительно вводит механизм отражения для самокоррекции сгенерированного неудовлетворительного изображения. Используя наши исследованные стратегии рассуждения, мы улучшаем базовую модель, Show-o, чтобы достичь превосходных результатов, с значительным улучшением на 24% по показателям GenEval, превосходя Stable Diffusion 3 на 15%. Мы надеемся, что наше исследование предоставляет уникальные идеи и прокладывает новый путь для интеграции рассуждения по цепочке с авторегрессивной генерацией изображений. Код и модели доступны по ссылке https://github.com/ZiyuGuo99/Image-Generation-CoT
Люди приобретают знания через три когнитивных этапа: восприятие информации, понимание знаний и применение знаний для решения новых проблем. Видео служат эффективным средством для этого процесса обучения, облегчая продвижение через эти когнитивные этапы. Однако существующие видео-бенчмарки не оценивают систематически возможности усвоения знаний в крупных мультимодальных моделях (LMMs). Для заполнения этой пробела мы представляем Video-MMMU, мультимодальный, мультидисциплинарный бенчмарк, разработанный для оценки способности LMMs усваивать и использовать знания из видео. Video-MMMU включает подобранную коллекцию из 300 видео на экспертном уровне и 900 вопросов, аннотированных людьми, по шести дисциплинам, оценивающих усвоение знаний через пары вопрос-ответ, выровненные по этапам: Восприятие, Понимание и Применение. Предложенная метрика прироста знаний, {\Delta}знания, количественно измеряет улучшение производительности после просмотра видео. Оценка LMMs показывает крутое снижение производительности при увеличении когнитивной нагрузки и подчеркивает значительный разрыв между усвоением знаний человеком и моделью, подчеркивая необходимость методов для улучшения способности LMMs к обучению и адаптации на основе видео.
Несмотря на значительные достижения в области видео с большими мультимодальными моделями (video-LMMs), достижение эффективной временной привязки в длинных видео остается вызовом для существующих моделей. Для решения этого ограничения мы предлагаем Оптимизацию Временных Предпочтений (TPO), новую посттренировочную структуру, разработанную для улучшения возможностей временной привязки видео-LMMs через обучение предпочтениям. TPO принимает подход самообучения, который позволяет моделям различать хорошо привязанные и менее точные временные ответы, используя отобранные наборы данных предпочтений на двух уровнях детализации: локализованная временная привязка, которая фокусируется на конкретных сегментах видео, и всесторонняя временная привязка, которая охватывает расширенные временные зависимости по всему видео. Оптимизируя на этих наборах данных предпочтений, TPO значительно улучшает временное понимание, снижая зависимость от ручной аннотации данных. Обширные эксперименты на трех бенчмарках понимания длинных видео - LongVideoBench, MLVU и Video-MME - демонстрируют эффективность TPO на двух современных видео-LMMs. Особенно LLaVA-Video-TPO утверждает себя как ведущая модель 7B на бенчмарке Video-MME, подчеркивая потенциал TPO как масштабируемого и эффективного решения для продвижения временного рассуждения в понимании длинных видео. Страница проекта: https://ruili33.github.io/tpo_website.
С быстрым развитием моделей диффузии модели текст-к-изображению (T2I) значительно продвинулись, продемонстрировав впечатляющие способности в автоматическом следовании и генерации изображений. Недавно выпущенные модели, такие как FLUX.1 и Ideogram2.0, а также другие, например Dall-E3 и Stable Diffusion 3, продемонстрировали исключительную производительность в различных сложных задачах, вызывая вопросы о том, движутся ли модели T2I в сторону общего применения. Помимо традиционной генерации изображений, эти модели проявляют способности в различных областях, включая управляемую генерацию, редактирование изображений, видео, аудио, 3D и генерацию движения, а также задачи компьютерного зрения, такие как семантическая сегментация и оценка глубины. Однако текущие критерии оценки недостаточны для всесторонней оценки производительности этих моделей в расширяющихся областях. Для тщательной оценки этих моделей мы разработали IMAGINE-E и протестировали шесть ведущих моделей: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 и Jimeng. Наша оценка разделена на пять ключевых областей: генерация структурированного вывода, реализм и физическая согласованность, генерация в конкретной области, создание сложных сценариев и задачи множественного стиля. Это всестороннее исследование выделяет сильные и слабые стороны каждой модели, особенно выдающуюся производительность FLUX.1 и Ideogram2.0 в структурированных и конкретных областях, подчеркивая расширяющиеся приложения и потенциал моделей T2I как основных инструментов искусственного интеллекта. Это исследование предоставляет ценные идеи о текущем состоянии и будущем траектории моделей T2I по мере их развития в сторону общего использования. Скрипты оценки будут опубликованы на https://github.com/jylei16/Imagine-e.
Большие языковые модели (LLM) недавно продемонстрировали выдающийся успех в математическом рассуждении. Несмотря на прогресс в методах, таких как цепочка мыслей и выборка самоконсистентности, эти достижения часто сосредотачиваются на окончательной правильности, не обеспечивая согласованности и надежности основного процесса рассуждения. В данной статье представлен Step-KTO, обучающая структура, которая объединяет обратную связь на уровне процесса и результата для направления LLM на более надежные траектории рассуждений. Предоставляя бинарные оценки как для промежуточных шагов рассуждения, так и для окончательного ответа, Step-KTO поощряет модель следовать логическим прогрессиям, а не полагаться на поверхностные уловки. Наши эксперименты на сложных математических бенчмарках показывают, что Step-KTO значительно улучшает как точность окончательного ответа, так и качество промежуточных шагов рассуждения. Например, на наборе данных MATH-500, Step-KTO достигает значительного улучшения в точности Pass@1 по сравнению с сильными базовыми моделями. Эти результаты подчеркивают перспективу интеграции обратной связи пошагового процесса в обучение LLM, открывая путь к более интерпретируемым и надежным возможностям рассуждения.
Недавние алгоритмы видеоинпейнтинга интегрируют пиксельную пропагацию на основе потока с генерацией на основе трансформера для использования оптического потока при восстановлении текстур и объектов с использованием информации из соседних кадров, а также для заполнения маскированных областей через визуальные трансформеры. Однако эти подходы часто сталкиваются с размытием и временными несоответствиями при работе с большими масками, что подчеркивает необходимость моделей с улучшенными генеративными возможностями. Недавно диффузионные модели стали заметным методом в области генерации изображений и видео благодаря их впечатляющей производительности. В данной статье мы представляем DiffuEraser, модель видеоинпейнтинга на основе стабильной диффузии, разработанную для заполнения маскированных областей более детально и с более согласованными структурами. Мы внедряем предварительную информацию для обеспечения инициализации и слабой кондиционирования, что помогает смягчить шумные артефакты и подавить галлюцинации. Кроме того, для улучшения временной согласованности во время вывода на длинных последовательностях мы расширяем временные рецептивные поля как у предварительной модели, так и у DiffuEraser, и дополнительно улучшаем согласованность, используя свойство временного сглаживания моделей видеодиффузии. Экспериментальные результаты демонстрируют, что наш метод превосходит современные техники как по полноте содержания, так и по временной согласованности, сохраняя приемлемую эффективность.
Исследователи высказали опасения относительно галлюцинаций в крупных языковых моделях (LLM), однако их потенциал в областях, где креативность играет важную роль, таких как поиск лекарств, заслуживает изучения. В данной статье мы выдвигаем гипотезу о том, что галлюцинации могут улучшить LLM в области поиска лекарств. Для проверки этой гипотезы мы используем LLM для описания строк SMILES молекул на естественном языке, а затем включаем эти описания в качестве части запроса для решения конкретных задач в области поиска лекарств. Оценивая на семи LLM и пяти задачах классификации, наши результаты подтверждают гипотезу: LLM могут достичь лучшей производительности с текстом, содержащим галлюцинации. Заметно, что Llama-3.1-8B достигает увеличения в ROC-AUC на 18,35% по сравнению с базовым уровнем без галлюцинаций. Кроме того, галлюцинации, сгенерированные GPT-4o, обеспечивают наиболее последовательные улучшения среди моделей. Кроме того, мы проводим эмпирические анализы и кейс-стади для изучения ключевых факторов, влияющих на производительность, и основных причин. Наше исследование проливает свет на потенциальное использование галлюцинаций для LLM и предлагает новые перспективы для будущих исследований, использующих LLM в области поиска лекарств.
Модели генерации изображений по тексту могут создавать изображения высокого качества по входным подсказкам. Однако они испытывают трудности с обеспечением последовательной генерации требований к сохранению идентичности для повествования. Существующие подходы к этой проблеме обычно требуют обширного обучения на больших наборах данных или дополнительных модификаций исходных архитектур моделей. Это ограничивает их применимость в различных областях и разнообразных конфигурациях моделей диффузии. В данной статье мы в первую очередь наблюдаем врожденную способность языковых моделей, названную контекстной согласованностью, понимать идентичность через контекст с помощью одной подсказки. Вдохновляясь врожденной контекстной согласованностью, мы предлагаем новый метод обучения без тренировки для последовательной генерации текста в изображение (T2I), названный "Один-Подсказка-Одна-История" (1Подсказка1История). Наш подход 1Подсказка1История объединяет все подсказки в один вход для моделей диффузии T2I, начально сохраняя идентичности персонажей. Затем мы улучшаем процесс генерации с помощью двух новых техник: Переоценка Сингулярных Значений и Сохранение Идентичности с Перекрестным Вниманием, обеспечивая лучшее соответствие с описанием ввода для каждого кадра. В наших экспериментах мы сравниваем наш метод с различными существующими подходами к последовательной генерации T2I для демонстрации его эффективности через количественные метрики и качественные оценки. Код доступен по ссылке https://github.com/byliutao/1Подсказка1История.
Недавние достижения в области генерации видео значительно повлияли на различные прикладные области, особенно на генерацию видео с сохранением идентичности (IPT2V). Однако существующие методы сталкиваются с артефактами "копирования-вставки" и проблемами низкой сходства, в основном из-за зависимости от низкоуровневой информации об изображениях лиц. Эта зависимость может привести к жестким чертам лица и артефактам, отражающим нерелевантные детали. Для решения этих проблем мы предлагаем EchoVideo, который использует две ключевые стратегии: (1) модуль слияния изображения и текста для идентичности (IITF), интегрирующий высокоуровневые семантические признаки из текста, захватывая чистые представления идентичности лица и отбрасывая заслонки, позы и изменения освещения для предотвращения появления артефактов; (2) двухэтапная стратегия обучения, включающая стохастический метод на втором этапе для случайного использования поверхностной информации о лице. Цель состоит в балансировке улучшений в достоверности, предоставляемых поверхностными признаками, с одновременным смягчением избыточной зависимости от них. Эта стратегия побуждает модель использовать высокоуровневые признаки во время обучения, в конечном итоге способствуя более надежному представлению идентичности лиц. EchoVideo эффективно сохраняет идентичности лиц и поддерживает целостность всего тела. Обширные эксперименты демонстрируют, что он достигает отличных результатов в генерации видео высокого качества, управляемости и достоверности.
Общепринятые методы выравнивания уже способных моделей с желаемым поведением полагаются на способность людей предоставлять надзор. Однако будущие сверхчеловеческие модели превзойдут способности людей. Поэтому люди смогут лишь слабо контролировать сверхчеловеческие модели. Ожидаемое недостаточное качество оценки со стороны людей ослабит безопасность будущих систем искусственного интеллекта. Масштабируемый надзор и слабо-крепкая обобщенность - два взаимодополняющих подхода к решению этой проблемы. В данной статье мы пытаемся объединить преимущества этих двух подходов для дальнейшего улучшения выравнивания. Конкретно, мы исследуем способы улучшения человеческого надзора с помощью крепкой предварительно обученной модели, а затем контролируем крепкую модель с улучшенным слабым человеческим надзором. Для достижения итеративного эмпирического прогресса мы рассматриваем аналогию: можем ли мы использовать крепкую модель для улучшения надзора слабой модели, а затем использовать ее для контроля над крепкой моделью? Мы проводим эмпирическое тестирование, донастраивая небольшую слабую модель на истинных метках с дополнительной помощью большой крепкой модели, а затем донастраивая крепкую модель на метках, сгенерированных слабой моделью. Мы обнаруживаем, что дебаты могут помочь слабой модели извлечь достоверную информацию из ненадежной крепкой модели, что обеспечивает контекст при обучении слабой модели на образцах. Мы также показываем, что ансамбль слабых моделей помогает использовать длинные аргументы, сгенерированные дебатирующими крепкими моделями, и получить более надежную оценку надзора. Обширные эксперименты на бенчмарках слабой-крепкой обработки естественного языка от OpenAI показывают, что комбинированный подход приводит к лучшему выравниванию, что указывает на потенциал дебатов в помощи слабо-крепкой обобщенности.
Многомодельные модели на больших языковых корпусах (MLLM) продемонстрировали значительные прорывы, обещая перспективное будущее для инкорпорированных агентов. Существующие бенчмарки для оценки MLLM в основном используют статические изображения или видео, что ограничивает оценку невзаимодействующими сценариями. Тем временем существующие бенчмарки для инкорпорированных ИИ ориентированы на конкретные задачи и недостаточно разнообразны, что не позволяет должным образом оценить инкорпорированные возможности MLLM. Для решения этой проблемы мы предлагаем EmbodiedEval - всесторонний и интерактивный бенчмарк для оценки MLLM с инкорпорированными задачами. EmbodiedEval включает 328 различных задач в 125 разнообразных трехмерных сценах, каждая из которых тщательно отобрана и аннотирована. Он охватывает широкий спектр существующих задач инкорпорированного ИИ с значительно улучшенным разнообразием, все в рамках унифицированной симуляционной и оценочной среды, разработанной специально для MLLM. Задачи организованы в пять категорий: навигация, взаимодействие с объектами, социальное взаимодействие, ответы на вопросы о признаках и пространственные вопросы для оценки различных возможностей агентов. Мы оценили современные MLLM на EmbodiedEval и обнаружили, что они значительно уступают уровню человека в инкорпорированных задачах. Наш анализ показывает ограничения существующих MLLM в инкорпорированных возможностях, предоставляя идеи для их будущего развития. Мы предоставляем все данные оценки и симуляционную среду в открытом доступе на https://github.com/thunlp/EmbodiedEval.
Этот документ утверждает, что машинное обучение (ML) в значительной степени не учитывает важный аспект общего интеллекта: устойчивость к качественно неизвестному будущему в открытом мире. Такая устойчивость связана с рыцарской неопределенностью (KU) в экономике, то есть неопределенностью, которая не может быть количественно оценена, исключенной из рассмотрения в основных формализмах ML. Цель этого документа - выявить этую слепую зону, обосновать ее важность и стимулировать исследования по ее решению, которые, по нашему мнению, необходимы для создания по-настоящему устойчивого искусственного интеллекта в открытом мире. Для прояснения слепой зоны мы противопоставляем одну область ML, обучение с подкреплением (RL), процессу биологической эволюции. Несмотря на поразительные успехи, RL по-прежнему испытывает трудности в ситуациях открытого мира, часто терпя неудачи в неожиданных обстоятельствах. Например, идея нулевого переноса политики автопилота, обученной только в США, в Великобританию в настоящее время кажется чрезвычайно амбициозной. В ярком контрасте биологическая эволюция регулярно создает агентов, которые процветают в открытом мире, иногда даже в ситуациях, которые являются заметно вне распределения (например, инвазивные виды; или люди, которые действительно осуществляют такое нулевое международное вождение). Интересно, что эволюция достигает такой устойчивости без явной теории, формализмов или математических градиентов. Мы исследуем предположения, лежащие в основе типичных формализмов RL, показывая, как они ограничивают взаимодействие RL с неизвестными неизвестными, характерными для постоянно меняющегося сложного мира. Кроме того, мы выявляем механизмы, через которые эволюционные процессы способствуют устойчивости к новым и непредсказуемым вызовам, и обсуждаем потенциальные пути для алгоритмического воплощения их. Вывод состоит в том, что интригующая оставшаяся хрупкость ML может быть результатом слепых пятен в его формализмах и что значительные выгоды могут быть получены от прямого противостояния вызову KU.
Большие языковые модели (LLM) требуют значительных вычислительных ресурсов, поэтому важно расширить их возможности без повторного обучения с нуля. Одной из ключевых проблем в этой области является катастрофическое забывание (CF), которое снижает производительность во время непрерывного предварительного обучения (CPT) и непрерывного надзорного дообучения (CSFT). Мы предлагаем Control LLM, новый подход, который использует параллельные предварительно обученные и расширенные блоки трансформера, выравнивая их скрытые состояния с помощью стратегий интерполяции. Этот метод эффективно сохраняет производительность на существующих задачах, одновременно интегрируя новые знания. Обширные эксперименты демонстрируют эффективность Control LLM как в CPT, так и в CSFT. На Llama3.1-8B-Instruct он достигает значительных улучшений в математическом рассуждении (+14.4% на Math-Hard) и производительности кодирования (+10% на MBPP-PLUS). На Llama3.1-8B он улучшает многоязычные возможности (+10.6% на C-Eval, +6.8% на CMMLU и +30.2% на CMMLU-0shot-CoT). Он превосходит существующие методы и достигает SOTA среди моделей с открытым исходным кодом, настроенных на той же базовой модели, используя значительно меньше данных и вычислений. Критически важно, что эти достижения реализованы при сохранении сильных исходных возможностей, с минимальным ухудшением (<4.3% на MMLU) по сравнению с >35% в моделях математики и кодирования с открытым исходным кодом. Этот подход успешно применен в продуктах LinkedIn, работающих на базе искусственного интеллекта GenAI, для поиска работы и рекламных единиц. Для поддержки дальнейших исследований мы выпускаем код обучения и оценки (https://github.com/linkedin/ControlLLM) вместе с моделями, обученными на общедоступных наборах данных (https://huggingface.co/ControlLLM) для сообщества.
Техники трехмерного гауссовского сплэттинга позволили эффективно реализовать фотореалистичную визуализацию статических сцен. Недавние работы расширили эти подходы для поддержки восстановления поверхности и отслеживания. Однако отслеживание динамических поверхностей с помощью трехмерных гауссовских функций остается сложной задачей из-за изменений сложной топологии, таких как появление, исчезновение или разделение поверхностей. Для решения этих проблем мы предлагаем GSTAR, новый метод, который достигает фотореалистичной визуализации, точного восстановления поверхности и надежного трехмерного отслеживания для общих динамических сцен с изменяющейся топологией. Получив многокамерные снимки на входе, GSTAR привязывает гауссовские функции к граням сетки для представления динамических объектов. Для поверхностей с постоянной топологией GSTAR сохраняет топологию сетки и отслеживает сетки с использованием гауссовских функций. В областях, где происходят изменения топологии, GSTAR адаптивно отвязывает гауссовские функции от сетки, обеспечивая точную регистрацию и генерацию новых поверхностей на основе этих оптимизированных гауссовских функций. Кроме того, мы представляем метод потока сцены на основе поверхности, который обеспечивает надежную инициализацию для отслеживания между кадрами. Эксперименты показывают, что наш метод эффективно отслеживает и восстанавливает динамические поверхности, обеспечивая ряд приложений. Наша страница проекта с выложенным кодом доступна по адресу https://eth-ait.github.io/GSTAR/.