Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SRMT: Общая память для многоагентного планирования пути на протяжении жизни.
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

Jan 22

ByAlsu Sagirova, Yuri Kuratov, Mikhail Burtsev

Многоагентное обучение с подкреплением (MARL) демонстрирует значительный прогресс в решении кооперативных и конкурентных многоагентных проблем в различных средах. Одним из основных вызовов в MARL является необходимость явного прогнозирования поведения агентов для достижения сотрудничества. Для решения этой проблемы мы предлагаем Shared Recurrent Memory Transformer (SRMT), который расширяет памятьные трансформеры до многоагентных сред, объединяя и глобально транслируя индивидуальные рабочие памяти, позволяя агентам неявно обмениваться информацией и координировать свои действия. Мы оцениваем SRMT на проблеме частично наблюдаемого многоагентного поиска пути в игрушечной задаче узкого участка, требующей от агентов пройти через узкий коридор, а также на наборе задач POGEMA. В задаче узкого участка SRMT последовательно превосходит различные базовые методы обучения с подкреплением, особенно при разреженных вознаграждениях, и эффективно обобщается на более длинные коридоры, чем те, которые виделись во время обучения. На картах POGEMA, включая Лабиринты, Случайные и MovingAI, SRMT конкурентоспособен с недавними алгоритмами MARL, гибридными и планировочными. Эти результаты свидетельствуют о том, что включение общей рекуррентной памяти в архитектуры на основе трансформеров может улучшить координацию в децентрализованных многоагентных системах. Исходный код для обучения и оценки доступен на GitHub: https://github.com/Aloriosa/srmt.

Улучшение генерации видео с помощью обратной связи от человека
Improving Video Generation with Human Feedback

Jan 23

ByJie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang

Генерация видео достигла значительных успехов благодаря техникам исправления потока, однако проблемы, такие как неровное движение и несоответствие между видео и подсказками, остаются актуальными. В данной работе мы разрабатываем систематический конвейер, который использует обратную связь от людей для устранения этих проблем и улучшения модели генерации видео. В частности, мы начинаем с создания крупномасштабного набора данных предпочтений людей, сосредоточенного на современных моделях генерации видео, включающего попарные аннотации по многим измерениям. Затем мы представляем VideoReward, многомерную модель вознаграждения для видео, и исследуем, как аннотации и различные дизайнерские решения влияют на ее эффективность в вознаграждении. Из объединенной перспективы обучения с подкреплением с целью максимизации вознаграждения с регуляризацией KL мы представляем три алгоритма выравнивания для моделей на основе потока, расширяя их из моделей диффузии. Сюда входят две стратегии обучения: прямая оптимизация предпочтений для потока (Flow-DPO) и регрессия с взвешенным вознаграждением для потока (Flow-RWR), а также техника времени вывода, Flow-NRG, которая применяет направление вознаграждения непосредственно к шумным видео. Экспериментальные результаты показывают, что VideoReward значительно превосходит существующие модели вознаграждения, а Flow-DPO демонстрирует превосходные результаты по сравнению как с Flow-RWR, так и со стандартными методами обучения с учителем. Кроме того, Flow-NRG позволяет пользователям назначать пользовательские веса для нескольких целей во время вывода, удовлетворяя индивидуальные потребности в качестве видео. Страница проекта: https://gongyeliu.github.io/videoalign.

Сигма: Дифференциальное масштабирование запроса, ключа и значения для эффективных языковых моделей
Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models

Jan 23

ByZhenghao Lin, Zihao Tang, Xiao Liu, Yeyun Gong, Yi Cheng, Qi Chen, Hang Li, Ying Xin, Ziyue Yang, Kailai Yang, Yu Yan, Xiao Liang, Shuai Lu, Yiming Huang, Zheheng Luo, Lei Qu, Xuan Feng, Yaoxiang Wang, Yuqing Xia, Feiyang Chen, Yuting Jiang, Yasen Hu, Hao Ni, Binyang Li, Guoshuai Zhao, Jui-Hao Chiang, Zhongxin Guo, Chen Lin, Kun Kuang, Wenjie Li, Yelong Shen, Jian Jiao, Peng Cheng, Mao Yang

Мы представляем Sigma, эффективную большую языковую модель, специализированную для системной области, усиленную новой архитектурой, включающей в себя внимание DiffQKV, и предварительно обученную на наших тщательно собранных данных системной области. Внимание DiffQKV значительно повышает эффективность вывода Sigma путем оптимизации компонентов Запроса (Q), Ключа (K) и Значения (V) в механизме внимания дифференцированно, основываясь на их различном влиянии на показатели производительности и эффективности модели. В частности, мы (1) проводим обширные эксперименты, демонстрирующие различную чувствительность модели к сжатию компонентов K и V, что приводит к разработке дифференцированно сжатых KV, и (2) предлагаем дополненный Q для расширения размерности головы Q, что увеличивает емкость представления модели с минимальным влиянием на скорость вывода. Тщательные теоретические и эмпирические анализы показывают, что внимание DiffQKV значительно повышает эффективность, достигая улучшения скорости вывода до 33,36% по сравнению с традиционным групповым вниманием к запросу (GQA) в сценариях с длинным контекстом. Мы предварительно обучаем Sigma на 6T токенах из различных источников, включая 19,5 млрд данных системной области, которые мы тщательно собрали, и 1T токенов синтезированных и переписанных данных. В общих областях Sigma достигает сопоставимой производительности с другими современными моделями. В системной области мы представляем первый всеобъемлющий бенчмарк AIMicius, где Sigma демонстрирует выдающуюся производительность во всех задачах, значительно превосходя GPT-4 с абсолютным улучшением до 52,5%.

Можем ли мы создавать изображения с помощью CoT? Давайте проверим и укрепим этапы генерации изображения пошагово.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Jan 23

ByZiyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng

Рассуждение по цепочке (CoT) было широко исследовано в крупных моделях для решения сложных задач понимания. Однако остаётся открытым вопрос, можно ли применять такие стратегии для верификации и укрепления сценариев генерации изображений. В данной статье мы представляем первое всестороннее исследование потенциала рассуждения по цепочке для улучшения авторегрессивной генерации изображений. Мы сосредотачиваемся на трёх техниках: масштабирование вычислений на этапе тестирования для верификации, выравнивание предпочтений модели с оптимизацией прямых предпочтений (DPO) и интеграция этих техник для достижения взаимодополняющих эффектов. Наши результаты показывают, что эти подходы могут быть эффективно адаптированы и объединены для значительного улучшения производительности генерации изображений. Более того, учитывая ключевую роль моделей вознаграждения в наших выводах, мы предлагаем модель вознаграждения оценки потенциала (PARM) и PARM++, специализированные для авторегрессивной генерации изображений. PARM адаптивно оценивает каждый шаг генерации через подход оценки потенциала, объединяя преимущества существующих моделей вознаграждения, а PARM++ дополнительно вводит механизм отражения для самокоррекции сгенерированного неудовлетворительного изображения. Используя наши исследованные стратегии рассуждения, мы улучшаем базовую модель, Show-o, чтобы достичь превосходных результатов, с значительным улучшением на 24% по показателям GenEval, превосходя Stable Diffusion 3 на 15%. Мы надеемся, что наше исследование предоставляет уникальные идеи и прокладывает новый путь для интеграции рассуждения по цепочке с авторегрессивной генерацией изображений. Код и модели доступны по ссылке https://github.com/ZiyuGuo99/Image-Generation-CoT

Оптимизация временных предпочтений для понимания видео большой продолжительности
Temporal Preference Optimization for Long-Form Video Understanding

Jan 23

ByRui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy

Несмотря на значительные достижения в области видео с большими мультимодальными моделями (video-LMMs), достижение эффективной временной привязки в длинных видео остается вызовом для существующих моделей. Для решения этого ограничения мы предлагаем Оптимизацию Временных Предпочтений (TPO), новую посттренировочную структуру, разработанную для улучшения возможностей временной привязки видео-LMMs через обучение предпочтениям. TPO принимает подход самообучения, который позволяет моделям различать хорошо привязанные и менее точные временные ответы, используя отобранные наборы данных предпочтений на двух уровнях детализации: локализованная временная привязка, которая фокусируется на конкретных сегментах видео, и всесторонняя временная привязка, которая охватывает расширенные временные зависимости по всему видео. Оптимизируя на этих наборах данных предпочтений, TPO значительно улучшает временное понимание, снижая зависимость от ручной аннотации данных. Обширные эксперименты на трех бенчмарках понимания длинных видео - LongVideoBench, MLVU и Video-MME - демонстрируют эффективность TPO на двух современных видео-LMMs. Особенно LLaVA-Video-TPO утверждает себя как ведущая модель 7B на бенчмарке Video-MME, подчеркивая потенциал TPO как масштабируемого и эффективного решения для продвижения временного рассуждения в понимании длинных видео. Страница проекта: https://ruili33.github.io/tpo_website.

Видео-МММУ: Оценка усвоения знаний из профессиональных видеороликов многих дисциплин
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Jan 23

ByKairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu

Люди приобретают знания через три когнитивных этапа: восприятие информации, понимание знаний и применение знаний для решения новых проблем. Видео служат эффективным средством для этого процесса обучения, облегчая продвижение через эти когнитивные этапы. Однако существующие видео-бенчмарки не оценивают систематически возможности усвоения знаний в крупных мультимодальных моделях (LMMs). Для заполнения этой пробела мы представляем Video-MMMU, мультимодальный, мультидисциплинарный бенчмарк, разработанный для оценки способности LMMs усваивать и использовать знания из видео. Video-MMMU включает подобранную коллекцию из 300 видео на экспертном уровне и 900 вопросов, аннотированных людьми, по шести дисциплинам, оценивающих усвоение знаний через пары вопрос-ответ, выровненные по этапам: Восприятие, Понимание и Применение. Предложенная метрика прироста знаний, {\Delta}знания, количественно измеряет улучшение производительности после просмотра видео. Оценка LMMs показывает крутое снижение производительности при увеличении когнитивной нагрузки и подчеркивает значительный разрыв между усвоением знаний человеком и моделью, подчеркивая необходимость методов для улучшения способности LMMs к обучению и адаптации на основе видео.

IMAGINE-E: Оценка интеллекта генерации изображений для передовых моделей текст-в-изображение.
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models

Jan 23

ByJiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li

С быстрым развитием моделей диффузии модели текст-к-изображению (T2I) значительно продвинулись, продемонстрировав впечатляющие способности в автоматическом следовании и генерации изображений. Недавно выпущенные модели, такие как FLUX.1 и Ideogram2.0, а также другие, например Dall-E3 и Stable Diffusion 3, продемонстрировали исключительную производительность в различных сложных задачах, вызывая вопросы о том, движутся ли модели T2I в сторону общего применения. Помимо традиционной генерации изображений, эти модели проявляют способности в различных областях, включая управляемую генерацию, редактирование изображений, видео, аудио, 3D и генерацию движения, а также задачи компьютерного зрения, такие как семантическая сегментация и оценка глубины. Однако текущие критерии оценки недостаточны для всесторонней оценки производительности этих моделей в расширяющихся областях. Для тщательной оценки этих моделей мы разработали IMAGINE-E и протестировали шесть ведущих моделей: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 и Jimeng. Наша оценка разделена на пять ключевых областей: генерация структурированного вывода, реализм и физическая согласованность, генерация в конкретной области, создание сложных сценариев и задачи множественного стиля. Это всестороннее исследование выделяет сильные и слабые стороны каждой модели, особенно выдающуюся производительность FLUX.1 и Ideogram2.0 в структурированных и конкретных областях, подчеркивая расширяющиеся приложения и потенциал моделей T2I как основных инструментов искусственного интеллекта. Это исследование предоставляет ценные идеи о текущем состоянии и будущем траектории моделей T2I по мере их развития в сторону общего использования. Скрипты оценки будут опубликованы на https://github.com/jylei16/Imagine-e.

DiffuEraser: Модель диффузии для видеоинпейнтинга
DiffuEraser: A Diffusion Model for Video Inpainting

Jan 17

ByXiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo

Недавние алгоритмы видеоинпейнтинга интегрируют пиксельную пропагацию на основе потока с генерацией на основе трансформера для использования оптического потока при восстановлении текстур и объектов с использованием информации из соседних кадров, а также для заполнения маскированных областей через визуальные трансформеры. Однако эти подходы часто сталкиваются с размытием и временными несоответствиями при работе с большими масками, что подчеркивает необходимость моделей с улучшенными генеративными возможностями. Недавно диффузионные модели стали заметным методом в области генерации изображений и видео благодаря их впечатляющей производительности. В данной статье мы представляем DiffuEraser, модель видеоинпейнтинга на основе стабильной диффузии, разработанную для заполнения маскированных областей более детально и с более согласованными структурами. Мы внедряем предварительную информацию для обеспечения инициализации и слабой кондиционирования, что помогает смягчить шумные артефакты и подавить галлюцинации. Кроме того, для улучшения временной согласованности во время вывода на длинных последовательностях мы расширяем временные рецептивные поля как у предварительной модели, так и у DiffuEraser, и дополнительно улучшаем согласованность, используя свойство временного сглаживания моделей видеодиффузии. Экспериментальные результаты демонстрируют, что наш метод превосходит современные техники как по полноте содержания, так и по временной согласованности, сохраняя приемлемую эффективность.

Step-KTO: Оптимизация математического рассуждения через пошаговую двоичную обратную связь
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Jan 18

ByYen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang

Большие языковые модели (LLM) недавно продемонстрировали выдающийся успех в математическом рассуждении. Несмотря на прогресс в методах, таких как цепочка мыслей и выборка самоконсистентности, эти достижения часто сосредотачиваются на окончательной правильности, не обеспечивая согласованности и надежности основного процесса рассуждения. В данной статье представлен Step-KTO, обучающая структура, которая объединяет обратную связь на уровне процесса и результата для направления LLM на более надежные траектории рассуждений. Предоставляя бинарные оценки как для промежуточных шагов рассуждения, так и для окончательного ответа, Step-KTO поощряет модель следовать логическим прогрессиям, а не полагаться на поверхностные уловки. Наши эксперименты на сложных математических бенчмарках показывают, что Step-KTO значительно улучшает как точность окончательного ответа, так и качество промежуточных шагов рассуждения. Например, на наборе данных MATH-500, Step-KTO достигает значительного улучшения в точности Pass@1 по сравнению с сильными базовыми моделями. Эти результаты подчеркивают перспективу интеграции обратной связи пошагового процесса в обучение LLM, открывая путь к более интерпретируемым и надежным возможностям рассуждения.

Галлюцинации могут улучшить крупные языковые модели в области поиска лекарств.
Hallucinations Can Improve Large Language Models in Drug Discovery

Jan 23

ByShuzhou Yuan, Michael Färber

Исследователи высказали опасения относительно галлюцинаций в крупных языковых моделях (LLM), однако их потенциал в областях, где креативность играет важную роль, таких как поиск лекарств, заслуживает изучения. В данной статье мы выдвигаем гипотезу о том, что галлюцинации могут улучшить LLM в области поиска лекарств. Для проверки этой гипотезы мы используем LLM для описания строк SMILES молекул на естественном языке, а затем включаем эти описания в качестве части запроса для решения конкретных задач в области поиска лекарств. Оценивая на семи LLM и пяти задачах классификации, наши результаты подтверждают гипотезу: LLM могут достичь лучшей производительности с текстом, содержащим галлюцинации. Заметно, что Llama-3.1-8B достигает увеличения в ROC-AUC на 18,35% по сравнению с базовым уровнем без галлюцинаций. Кроме того, галлюцинации, сгенерированные GPT-4o, обеспечивают наиболее последовательные улучшения среди моделей. Кроме того, мы проводим эмпирические анализы и кейс-стади для изучения ключевых факторов, влияющих на производительность, и основных причин. Наше исследование проливает свет на потенциальное использование галлюцинаций для LLM и предлагает новые перспективы для будущих исследований, использующих LLM в области поиска лекарств.

Одно-запрос-одна-история: Генерация текста в изображение с постоянным бесплатным обедом с использованием одного запроса.
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

Jan 23

ByTao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng

Модели генерации изображений по тексту могут создавать изображения высокого качества по входным подсказкам. Однако они испытывают трудности с обеспечением последовательной генерации требований к сохранению идентичности для повествования. Существующие подходы к этой проблеме обычно требуют обширного обучения на больших наборах данных или дополнительных модификаций исходных архитектур моделей. Это ограничивает их применимость в различных областях и разнообразных конфигурациях моделей диффузии. В данной статье мы в первую очередь наблюдаем врожденную способность языковых моделей, названную контекстной согласованностью, понимать идентичность через контекст с помощью одной подсказки. Вдохновляясь врожденной контекстной согласованностью, мы предлагаем новый метод обучения без тренировки для последовательной генерации текста в изображение (T2I), названный "Один-Подсказка-Одна-История" (1Подсказка1История). Наш подход 1Подсказка1История объединяет все подсказки в один вход для моделей диффузии T2I, начально сохраняя идентичности персонажей. Затем мы улучшаем процесс генерации с помощью двух новых техник: Переоценка Сингулярных Значений и Сохранение Идентичности с Перекрестным Вниманием, обеспечивая лучшее соответствие с описанием ввода для каждого кадра. В наших экспериментах мы сравниваем наш метод с различными существующими подходами к последовательной генерации T2I для демонстрации его эффективности через количественные метрики и качественные оценки. Код доступен по ссылке https://github.com/byliutao/1Подсказка1История.

EchoVideo: Генерация видео с сохранением личности человека путем объединения мультимодальных признаков
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

Jan 23

ByJiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo

Недавние достижения в области генерации видео значительно повлияли на различные прикладные области, особенно на генерацию видео с сохранением идентичности (IPT2V). Однако существующие методы сталкиваются с артефактами "копирования-вставки" и проблемами низкой сходства, в основном из-за зависимости от низкоуровневой информации об изображениях лиц. Эта зависимость может привести к жестким чертам лица и артефактам, отражающим нерелевантные детали. Для решения этих проблем мы предлагаем EchoVideo, который использует две ключевые стратегии: (1) модуль слияния изображения и текста для идентичности (IITF), интегрирующий высокоуровневые семантические признаки из текста, захватывая чистые представления идентичности лица и отбрасывая заслонки, позы и изменения освещения для предотвращения появления артефактов; (2) двухэтапная стратегия обучения, включающая стохастический метод на втором этапе для случайного использования поверхностной информации о лице. Цель состоит в балансировке улучшений в достоверности, предоставляемых поверхностными признаками, с одновременным смягчением избыточной зависимости от них. Эта стратегия побуждает модель использовать высокоуровневые признаки во время обучения, в конечном итоге способствуя более надежному представлению идентичности лиц. EchoVideo эффективно сохраняет идентичности лиц и поддерживает целостность всего тела. Обширные эксперименты демонстрируют, что он достигает отличных результатов в генерации видео высокого качества, управляемости и достоверности.

EmbodiedEval: Оценка мультимодальных LLM в качестве воплощенных агентов
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

Jan 21

ByZhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun

Многомодельные модели на больших языковых корпусах (MLLM) продемонстрировали значительные прорывы, обещая перспективное будущее для инкорпорированных агентов. Существующие бенчмарки для оценки MLLM в основном используют статические изображения или видео, что ограничивает оценку невзаимодействующими сценариями. Тем временем существующие бенчмарки для инкорпорированных ИИ ориентированы на конкретные задачи и недостаточно разнообразны, что не позволяет должным образом оценить инкорпорированные возможности MLLM. Для решения этой проблемы мы предлагаем EmbodiedEval - всесторонний и интерактивный бенчмарк для оценки MLLM с инкорпорированными задачами. EmbodiedEval включает 328 различных задач в 125 разнообразных трехмерных сценах, каждая из которых тщательно отобрана и аннотирована. Он охватывает широкий спектр существующих задач инкорпорированного ИИ с значительно улучшенным разнообразием, все в рамках унифицированной симуляционной и оценочной среды, разработанной специально для MLLM. Задачи организованы в пять категорий: навигация, взаимодействие с объектами, социальное взаимодействие, ответы на вопросы о признаках и пространственные вопросы для оценки различных возможностей агентов. Мы оценили современные MLLM на EmbodiedEval и обнаружили, что они значительно уступают уровню человека в инкорпорированных задачах. Наш анализ показывает ограничения существующих MLLM в инкорпорированных возможностях, предоставляя идеи для их будущего развития. Мы предоставляем все данные оценки и симуляционную среду в открытом доступе на https://github.com/thunlp/EmbodiedEval.

Дискуссия способствует обобщению от слабого к сильному.
Debate Helps Weak-to-Strong Generalization

Jan 21

ByHao Lang, Fei Huang, Yongbin Li

Общепринятые методы выравнивания уже способных моделей с желаемым поведением полагаются на способность людей предоставлять надзор. Однако будущие сверхчеловеческие модели превзойдут способности людей. Поэтому люди смогут лишь слабо контролировать сверхчеловеческие модели. Ожидаемое недостаточное качество оценки со стороны людей ослабит безопасность будущих систем искусственного интеллекта. Масштабируемый надзор и слабо-крепкая обобщенность - два взаимодополняющих подхода к решению этой проблемы. В данной статье мы пытаемся объединить преимущества этих двух подходов для дальнейшего улучшения выравнивания. Конкретно, мы исследуем способы улучшения человеческого надзора с помощью крепкой предварительно обученной модели, а затем контролируем крепкую модель с улучшенным слабым человеческим надзором. Для достижения итеративного эмпирического прогресса мы рассматриваем аналогию: можем ли мы использовать крепкую модель для улучшения надзора слабой модели, а затем использовать ее для контроля над крепкой моделью? Мы проводим эмпирическое тестирование, донастраивая небольшую слабую модель на истинных метках с дополнительной помощью большой крепкой модели, а затем донастраивая крепкую модель на метках, сгенерированных слабой моделью. Мы обнаруживаем, что дебаты могут помочь слабой модели извлечь достоверную информацию из ненадежной крепкой модели, что обеспечивает контекст при обучении слабой модели на образцах. Мы также показываем, что ансамбль слабых моделей помогает использовать длинные аргументы, сгенерированные дебатирующими крепкими моделями, и получить более надежную оценку надзора. Обширные эксперименты на бенчмарках слабой-крепкой обработки естественного языка от OpenAI показывают, что комбинированный подход приводит к лучшему выравниванию, что указывает на потенциал дебатов в помощи слабо-крепкой обобщенности.

Управляемый LLM: Управляемая Эволюция для Сохранения Интеллекта в LLM
Control LLM: Controlled Evolution for Intelligence Retention in LLM

Jan 19

ByHaichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu

Большие языковые модели (LLM) требуют значительных вычислительных ресурсов, поэтому важно расширить их возможности без повторного обучения с нуля. Одной из ключевых проблем в этой области является катастрофическое забывание (CF), которое снижает производительность во время непрерывного предварительного обучения (CPT) и непрерывного надзорного дообучения (CSFT). Мы предлагаем Control LLM, новый подход, который использует параллельные предварительно обученные и расширенные блоки трансформера, выравнивая их скрытые состояния с помощью стратегий интерполяции. Этот метод эффективно сохраняет производительность на существующих задачах, одновременно интегрируя новые знания. Обширные эксперименты демонстрируют эффективность Control LLM как в CPT, так и в CSFT. На Llama3.1-8B-Instruct он достигает значительных улучшений в математическом рассуждении (+14.4% на Math-Hard) и производительности кодирования (+10% на MBPP-PLUS). На Llama3.1-8B он улучшает многоязычные возможности (+10.6% на C-Eval, +6.8% на CMMLU и +30.2% на CMMLU-0shot-CoT). Он превосходит существующие методы и достигает SOTA среди моделей с открытым исходным кодом, настроенных на той же базовой модели, используя значительно меньше данных и вычислений. Критически важно, что эти достижения реализованы при сохранении сильных исходных возможностей, с минимальным ухудшением (<4.3% на MMLU) по сравнению с >35% в моделях математики и кодирования с открытым исходным кодом. Этот подход успешно применен в продуктах LinkedIn, работающих на базе искусственного интеллекта GenAI, для поиска работы и рекламных единиц. Для поддержки дальнейших исследований мы выпускаем код обучения и оценки (https://github.com/linkedin/ControlLLM) вместе с моделями, обученными на общедоступных наборах данных (https://huggingface.co/ControlLLM) для сообщества.

Эволюция и рыцарский слепой пятно машинного обучения
Evolution and The Knightian Blindspot of Machine Learning

Jan 22

ByJoel Lehman, Elliot Meyerson, Tarek El-Gaaly, Kenneth O. Stanley, Tarin Ziyaee

Этот документ утверждает, что машинное обучение (ML) в значительной степени не учитывает важный аспект общего интеллекта: устойчивость к качественно неизвестному будущему в открытом мире. Такая устойчивость связана с рыцарской неопределенностью (KU) в экономике, то есть неопределенностью, которая не может быть количественно оценена, исключенной из рассмотрения в основных формализмах ML. Цель этого документа - выявить этую слепую зону, обосновать ее важность и стимулировать исследования по ее решению, которые, по нашему мнению, необходимы для создания по-настоящему устойчивого искусственного интеллекта в открытом мире. Для прояснения слепой зоны мы противопоставляем одну область ML, обучение с подкреплением (RL), процессу биологической эволюции. Несмотря на поразительные успехи, RL по-прежнему испытывает трудности в ситуациях открытого мира, часто терпя неудачи в неожиданных обстоятельствах. Например, идея нулевого переноса политики автопилота, обученной только в США, в Великобританию в настоящее время кажется чрезвычайно амбициозной. В ярком контрасте биологическая эволюция регулярно создает агентов, которые процветают в открытом мире, иногда даже в ситуациях, которые являются заметно вне распределения (например, инвазивные виды; или люди, которые действительно осуществляют такое нулевое международное вождение). Интересно, что эволюция достигает такой устойчивости без явной теории, формализмов или математических градиентов. Мы исследуем предположения, лежащие в основе типичных формализмов RL, показывая, как они ограничивают взаимодействие RL с неизвестными неизвестными, характерными для постоянно меняющегося сложного мира. Кроме того, мы выявляем механизмы, через которые эволюционные процессы способствуют устойчивости к новым и непредсказуемым вызовам, и обсуждаем потенциальные пути для алгоритмического воплощения их. Вывод состоит в том, что интригующая оставшаяся хрупкость ML может быть результатом слепых пятен в его формализмах и что значительные выгоды могут быть получены от прямого противостояния вызову KU.

GSTAR: Отслеживание и восстановление поверхности Гаусса
GSTAR: Gaussian Surface Tracking and Reconstruction

Jan 17

ByChengwei Zheng, Lixin Xue, Juan Zarate, Jie Song

Техники трехмерного гауссовского сплэттинга позволили эффективно реализовать фотореалистичную визуализацию статических сцен. Недавние работы расширили эти подходы для поддержки восстановления поверхности и отслеживания. Однако отслеживание динамических поверхностей с помощью трехмерных гауссовских функций остается сложной задачей из-за изменений сложной топологии, таких как появление, исчезновение или разделение поверхностей. Для решения этих проблем мы предлагаем GSTAR, новый метод, который достигает фотореалистичной визуализации, точного восстановления поверхности и надежного трехмерного отслеживания для общих динамических сцен с изменяющейся топологией. Получив многокамерные снимки на входе, GSTAR привязывает гауссовские функции к граням сетки для представления динамических объектов. Для поверхностей с постоянной топологией GSTAR сохраняет топологию сетки и отслеживает сетки с использованием гауссовских функций. В областях, где происходят изменения топологии, GSTAR адаптивно отвязывает гауссовские функции от сетки, обеспечивая точную регистрацию и генерацию новых поверхностей на основе этих оптимизированных гауссовских функций. Кроме того, мы представляем метод потока сцены на основе поверхности, который обеспечивает надежную инициализацию для отслеживания между кадрами. Эксперименты показывают, что наш метод эффективно отслеживает и восстанавливает динамические поверхности, обеспечивая ряд приложений. Наша страница проекта с выложенным кодом доступна по адресу https://eth-ait.github.io/GSTAR/.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SRMT: Общая память для многоагентного планирования пути на протяжении жизни.
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

Jan 22

ByAlsu Sagirova, Yuri Kuratov, Mikhail Burtsev

Улучшение генерации видео с помощью обратной связи от человека
Improving Video Generation with Human Feedback

Jan 23

Сигма: Дифференциальное масштабирование запроса, ключа и значения для эффективных языковых моделей
Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models

Jan 23

Можем ли мы создавать изображения с помощью CoT? Давайте проверим и укрепим этапы генерации изображения пошагово.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Jan 23

ByZiyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng

Оптимизация временных предпочтений для понимания видео большой продолжительности
Temporal Preference Optimization for Long-Form Video Understanding

Jan 23

ByRui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy

Видео-МММУ: Оценка усвоения знаний из профессиональных видеороликов многих дисциплин
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Jan 23

ByKairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu

IMAGINE-E: Оценка интеллекта генерации изображений для передовых моделей текст-в-изображение.
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models

Jan 23

ByJiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li

DiffuEraser: Модель диффузии для видеоинпейнтинга
DiffuEraser: A Diffusion Model for Video Inpainting

Jan 17

ByXiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo

Step-KTO: Оптимизация математического рассуждения через пошаговую двоичную обратную связь
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Jan 18

ByYen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang

Галлюцинации могут улучшить крупные языковые модели в области поиска лекарств.
Hallucinations Can Improve Large Language Models in Drug Discovery

Jan 23

ByShuzhou Yuan, Michael Färber

Одно-запрос-одна-история: Генерация текста в изображение с постоянным бесплатным обедом с использованием одного запроса.
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

Jan 23

ByTao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng

EchoVideo: Генерация видео с сохранением личности человека путем объединения мультимодальных признаков
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

Jan 23

ByJiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo

EmbodiedEval: Оценка мультимодальных LLM в качестве воплощенных агентов
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

Jan 21

ByZhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun

Дискуссия способствует обобщению от слабого к сильному.
Debate Helps Weak-to-Strong Generalization

Jan 21

ByHao Lang, Fei Huang, Yongbin Li

Управляемый LLM: Управляемая Эволюция для Сохранения Интеллекта в LLM
Control LLM: Controlled Evolution for Intelligence Retention in LLM

Jan 19

ByHaichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu

Эволюция и рыцарский слепой пятно машинного обучения
Evolution and The Knightian Blindspot of Machine Learning

Jan 22

ByJoel Lehman, Elliot Meyerson, Tarek El-Gaaly, Kenneth O. Stanley, Tarin Ziyaee

GSTAR: Отслеживание и восстановление поверхности Гаусса
GSTAR: Gaussian Surface Tracking and Reconstruction

Jan 17

ByChengwei Zheng, Lixin Xue, Juan Zarate, Jie Song