Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

OS-ATLAS: Модель действий на основе фундаментальных принципов для агентов общего назначения с графическим интерфейсом пользователя.
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Существующие усилия по созданию агентов с графическим интерфейсом сильно зависят от наличия надежных коммерческих моделей видео-языка (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые исходные коды VLM из-за значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к графическому интерфейсу и сценариях вне распределения (OOD). Для облегчения будущих исследований в этой области мы разработали OS-Atlas - фундаментальную модель действий с графическим интерфейсом, которая превосходит в привязке к графическому интерфейсу и выполнении задач OOD благодаря инновациям как в данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого набора инструментов для синтеза данных привязки к графическому интерфейсу на различных платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот набор инструментов, мы выпускаем к настоящему времени самый крупный открытый кроссплатформенный корпус данных привязки к графическому интерфейсу, который содержит более 13 миллионов элементов графического интерфейса. Этот набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания скриншотов графического интерфейса и обобщения на невидимые интерфейсы. После обширной оценки по шести бенчмаркам, охватывающим три различные платформы (мобильные, настольные и веб-приложения), OS-Atlas демонстрирует значительное улучшение производительности по сравнению с предыдущими передовыми моделями. Наша оценка также выявляет ценные идеи для непрерывного улучшения и масштабирования агентских возможностей открытых исходных кодов VLM.

Персонализация больших языковых моделей: обзор
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

Персонализация больших языковых моделей (LLM) в последнее время стала все более важной с широким спектром применений. Несмотря на важность и недавние успехи, большинство существующих работ по персонализированным LLM сосредоточены либо исключительно на (a) генерации персонализированного текста, либо (b) использовании LLM для персонализации связанных с ней прикладных приложений, таких как системы рекомендаций. В данной работе мы впервые соединяем эти два отдельных основных направления, представляя таксономию использования персонализированных LLM и обобщая ключевые различия и вызовы. Мы формализуем основы персонализированных LLM, консолидируя и расширяя понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемые характеристики персонализированных LLM. Затем мы объединяем литературу в этих различных областях и сценариях использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и приложений персонализированных LLM. Наконец, мы выделяем вызовы и важные открытые проблемы, которые требуют решения. Объединяя и изучая недавние исследования с использованием предложенных таксономий, мы стремимся предоставить четкое руководство по существующей литературе и различным аспектам персонализации в LLM, давая возможность как исследователям, так и практикующим специалистам.

Постоянное ускорение потока
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Процедуры прямого и обратного потока значительно продвинули быстрое поколение, постепенно выпрямляя обычные дифференциальные уравнения (ODE). Они работают с предположением, что изображения и пары шума, известные как связи, могут быть аппроксимированы прямыми траекториями с постоянной скоростью. Однако мы наблюдаем, что моделирование с постоянной скоростью и использование процедур обратного потока имеют ограничения в точном изучении прямых траекторий между парами, что приводит к субоптимальной производительности в генерации на несколько шагов. Для решения этих ограничений мы представляем Constant Acceleration Flow (CAF), новую структуру на основе простого уравнения постоянного ускорения. CAF вводит ускорение как дополнительную обучаемую переменную, позволяя более выразительную и точную оценку потока ODE. Более того, мы предлагаем две техники для дальнейшего улучшения точности оценки: начальное условие скорости для модели ускорения и процесс обратного потока для начальной скорости. Наши исчерпывающие исследования на игрушечных наборах данных, CIFAR-10 и ImageNet 64x64, показывают, что CAF превосходит современные базовые уровни для генерации на один шаг. Мы также показываем, что CAF значительно улучшает сохранение связей на несколько шагов и инверсию по сравнению с Rectified flow. Код доступен по ссылке https://github.com/mlvlab/CAF.

ПОМИДОР: Оценка визуальных временных рассуждений в мультимодальных базовых моделях
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Существующие бенчмарки часто подчеркивают выдающуюся производительность, достигнутую передовыми Мультимодальными Основными Моделями (МОМ) в использовании временного контекста для понимания видео. Однако насколько хорошо модели действительно выполняют визуальное временное рассуждение? Наше изучение существующих бенчмарков показывает, что эта способность МОМ, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или не в порядке кадры. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост на нескольких кадрах, (2) Чувствительность к порядку кадров и (3) Диспаратность информации кадра. Следуя этим принципам, мы представляем TOMATO, Оценку Мультимодального Временного Рассуждения, новый бенчмарк, разработанный для тщательной оценки способностей МОМ в визуальном временном рассуждении при понимании видео. TOMATO включает в себя 1 484 тщательно подобранных, аннотированных человеком вопросов, охватывающих шесть задач (т.е. подсчет действий, направление, вращение, форма и тенденция, скорость и частота, и визуальные подсказки), примененных к 1 417 видео, включая 805 самостоятельно записанных и созданных видео, охватывающих сценарии, связанные с человеком, реальными мирами и симулированными ситуациями. Наше всестороннее оценивание показывает разрыв в производительности между человеком и моделью в размере 57,3% у лучшей модели. Более того, наш анализ выявляет более фундаментальные ограничения за этим разрывом в текущих МОМ. Хотя они могут точно распознавать события в изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важной площадкой для оценки МОМ следующего поколения и призывом к сообществу разработать ИИ-системы, способные понимать динамику человеческого мира через видео-модальность.

Случайная авторегрессионная визуальная генерация
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Эта статья представляет моделирование случайных авторегрессионных процессов (RAR) для визуальной генерации, которое устанавливает новый уровень производительности на задаче генерации изображений, сохраняя полную совместимость с языковыми моделями. Предложенный RAR прост: во время стандартного процесса обучения авторегрессии с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в растре, случайным образом переставляется в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в течение обучения. Эта стратегия обучения отжига позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации и, таким образом, эффективно улучшить способность модели к моделированию двунаправленных контекстов. Важно, что RAR сохраняет целостность фреймворка авторегрессии, обеспечивая полную совместимость с языковым моделированием, при этом значительно улучшая производительность в генерации изображений. На тесте ImageNet-256, RAR достигает значения FID в 1,48, превосходя не только предыдущие авторегрессионные генераторы изображений нового уровня производительности, но и превосходя ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer

DynaMath: Динамический визуальный бенчмарк для оценки устойчивости математического рассуждения моделей языка видения.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Быстрый прогресс в моделях видео-языкового взаимодействия (VLM) показал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, способных надежно применять шаги решения к похожим проблемам с незначительными изменениями, мы обнаружили, что передовые модели VLM, такие как GPT-4o, могут последовательно терпеть неудачу в таких сценариях, выявляя ограничения их математических рассуждений. В данной статье мы исследуем устойчивость математических рассуждений в моделях VLM и оценим, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения визуальных числовых значений или функциональных графиков. Хотя было разработано несколько видео-ориентированных математических бенчмарков для оценки способностей моделей VLM в решении проблем, эти бенчмарки содержат только статические наборы задач и не могут легко оценить устойчивость математических рассуждений. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для глубокой оценки моделей VLM. DynaMath включает 501 высококачественный мульти-тематический исходный вопрос, каждый из которых представлен в виде программы на Python. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность обобщения моделей VLM, оценивая их производительность при различных входных условиях исходного вопроса. Мы оценили 14 передовых моделей VLM с 5 010 сгенерированными конкретными вопросами. Наши результаты показывают, что точность модели в худшем случае, определенная как процент правильных ответов на исходные вопросы во всех 10 вариантах, значительно ниже средней точности. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений моделей VLM, а DynaMath предоставляет ценные идеи для разработки более надежных моделей для математических рассуждений.

Физика в предсказании следующего токена
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

Мы обнаружили основную физику в предсказании следующего токена (NTP). Мы выявили закон сохранения информации в рамках NTP и предложили Первый Закон Информационной Емкости (IC-1), демонстрируя, что суть возникновения интеллекта в авторегрессионных моделях фундаментально является процессом передачи информации. Мы также внедрили Принцип Ландауэра в NTP, сформулировав Второй Закон Информационной Емкости (IC-2), который устанавливает связь между обучением авторегрессионной модели и энергопотреблением. Кроме того, мы представили несколько следствий, которые имеют практическое значение для производственных практик. Наконец, мы подтвердили совместимость и дополняемость наших результатов с существующими теориями.

GPT или BERT: почему бы и нет обоих?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Мы представляем простой способ объединения моделирования маскированных последовательностей с моделированием причинно-следственных связей. Эта гибридная цель обучения приводит к модели, которая объединяет преимущества обоих парадигм моделирования в рамках одного стека трансформера: GPT-BERT может быть использован прозрачно, как любая стандартная причинно-следственная или маскированная языковая модель. Мы тестируем процесс предварительного обучения, который обеспечивает эту гибкую функциональность, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели только с маскировкой или только причинно-следственные модели. Мы открыто предоставляем модели, обучающие корпуса и код.

Обзор дизайна пользовательского интерфейса и техник взаимодействия в приложениях генеративного искусственного интеллекта
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Применения генеративного искусственного интеллекта стали чрезвычайно впечатляющими, и взаимодействие между пользователями и ИИ еще более интересно. Существующая литература по взаимодействию человека с ИИ широко рассматривает, как люди взаимодействуют с генеративным ИИ, однако в ней отсутствует конкретика относительно дизайнов пользовательского интерфейса и шаблонов, используемых для создания этих приложений. Поэтому мы представляем обзор, который исчерпывающим образом представляет таксономии того, как человек взаимодействует с ИИ, и шаблоны пользовательского взаимодействия, разработанные для удовлетворения потребностей различных соответствующих случаев использования. Мы фокусируемся в первую очередь на взаимодействиях, управляемых пользователем, проводя обзор взаимодействий, которые инициируются пользователем и не включают в себя какие-либо неявные сигналы, поступающие от пользователя. Целью этого обзора является создание сборника различных шаблонов пользовательского взаимодействия, которые могут быть использованы в качестве справочного материала как для дизайнеров, так и для разработчиков. Таким образом, мы также стремимся снизить порог входа для тех, кто пытается узнать больше о дизайне генеративных приложений ИИ.

Модель видеораспространения Fashion-VDM для виртуальной примерки.
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

Мы представляем Fashion-VDM, модель видеодиффузии (VDM) для создания виртуальных видеороликов примерки. Учитывая входное изображение одежды и видео человека, наш метод направлен на создание видеоролика примерки высокого качества, на котором человек носит предоставленную одежду, сохраняя при этом его личность и движение. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующим методам видеовиртуальной примерки (VVT) все еще не хватает деталей одежды и временной последовательности. Для решения этих проблем мы предлагаем архитектуру на основе диффузии для видеовиртуальной примерки, разделенное руководство без классификатора для увеличения контроля над входными данными, и прогрессивную стратегию обучения по времени для генерации видео однопроходным способом на 64 кадра, 512 пикселей. Мы также демонстрируем эффективность совместного обучения изображений и видео для видеопримерки, особенно когда видеоданные ограничены. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый уровень качества для видеовиртуальной примерки. Дополнительные результаты доступны на нашей странице проекта: https://johannakarras.github.io/Fashion-VDM.

В контексте LoRA для Диффузионных Трансформеров
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Недавние исследования arXiv:2410.15027 исследовали использование диффузионных трансформеров (DiTs) для задачи-агностической генерации изображений путем простого конкатенирования внимательных токенов по всем изображениям. Однако, несмотря на значительные вычислительные ресурсы, качество сгенерированных изображений остается недостаточным. В данном исследовании мы переоцениваем и оптимизируем эту структуру, предполагая, что тексто-изображенческие DiTs по своей сути обладают возможностями генерации в контексте, требующими лишь минимальной настройки для их активации. Через разнообразные задачи экспериментов мы качественно демонстрируем, что существующие тексто-изображенческие DiTs могут эффективно выполнять генерацию в контексте без какой-либо настройки. Основываясь на этом понимании, мы предлагаем замечательно простой конвейер для использования возможностей в контексте DiTs: (1) конкатенировать изображения вместо токенов, (2) выполнять совместное описывание нескольких изображений и (3) применять настройку LoRA для задачи с использованием небольших наборов данных (например, 20-100 образцов) вместо настройки с полными параметрами на больших наборах данных. Мы называем наши модели In-Context LoRA (IC-LoRA). Данный подход не требует модификаций исходных моделей DiT, лишь изменений в обучающих данных. Замечательно, что наш конвейер генерирует наборы изображений высокого качества, лучше соответствующие запросам. Хотя наша структура остается задаче-специфичной в терминах данных настройки, она остается задаче-агностической по архитектуре и конвейеру, предлагая мощный инструмент для сообщества и предоставляя ценные идеи для дальнейших исследований в области систем генерации на уровне продукта, независимых от задачи. Мы публикуем наш код, данные и модели на https://github.com/ali-vilab/In-Context-LoRA.

Простое обезличивание лиц
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

Существующие методы анонимизации лиц часто зависят от потери идентичности, рассчитанной моделями распознавания лиц, которые могут быть неточными и ненадежными. Кроме того, многие методы требуют дополнительных данных, таких как точки лица и маски, для направления процесса синтеза. В отличие от этого, наш подход использует модели диффузии только с потерей реконструкции, устраняя необходимость в точках лица или масках, сохраняя при этом изображения с тонкими деталями. Мы проверили наши результаты на двух общедоступных бенчмарках с помощью как количественной, так и качественной оценок. Наша модель достигает передового уровня производительности в трех ключевых областях: анонимизации идентичности, сохранении лицевых атрибутов и качестве изображения. Помимо своей основной функции анонимизации, наша модель также может выполнять задачи обмена лицами, интегрируя дополнительное лицевое изображение в качестве входных данных, демонстрируя свою универсальность и потенциал для различных приложений. Наш код и модели доступны по адресу https://github.com/hanweikung/face_anon_simple .

CityGaussianV2: Эффективная и геометрически точная реконструкция для крупномасштабных сцен
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Недавно трехмерное гауссово сглаживание (3DGS) революционизировало восстановление радиационного поля, обеспечивая эффективный и высококачественный синтез нового вида. Однако точное представление поверхностей, особенно в больших и сложных сценариях, остается значительным вызовом из-за неструктурированной природы 3DGS. В данной статье мы представляем CityGaussianV2, новый подход для реконструкции сцен большого масштаба, который решает критические проблемы, связанные с геометрической точностью и эффективностью. Основываясь на благоприятных возможностях обобщения двумерного гауссова сглаживания (2DGS), мы решаем проблемы сходимости и масштабируемости. Конкретно, мы реализуем технику денсификации на основе разложения градиента и регрессии глубины для устранения размытых артефактов и ускорения сходимости. Для масштабирования мы вводим фильтр удлинения, который смягчает взрыв числа гауссов, вызванный деградацией 2DGS. Более того, мы оптимизируем конвейер CityGaussian для параллельного обучения, достигая до 10-кратного сжатия, по крайней мере, 25% экономии времени обучения и уменьшения использования памяти на 50%. Мы также установили стандартные геометрические показатели на сценах большого масштаба. Экспериментальные результаты демонстрируют, что наш метод находит перспективный баланс между визуальным качеством, геометрической точностью, а также затратами на хранение и обучение. Страница проекта доступна по адресу https://dekuliutesla.github.io/CityGaussianV2/.

Адаптация в процессе обучения: закрепление LLM для научных проблем с использованием интеллектуальной адаптации инструментов.
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Большие языковые модели (LLM) демонстрируют многообещающие возможности в решении простых научных задач, но часто проявляют галлюцинации при сложных. Интеграция LLM с инструментами может повысить надежность, однако такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи на основе базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания области, прежде чем выбрать подходящий способ решения. Вдохновленные этим процессом человеческого решения проблем, мы предлагаем новый метод настройки из двух компонентов. В первом компоненте Дистилляция Мировых Знаний (WKD) LLM учится непосредственно из решений, сгенерированных с использованием информации инструмента, чтобы внутренне усвоить областные знания. Во втором компоненте Адаптация Использования Инструментов (TUA) мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая тот же целевой уровень для простых задач, что и в WKD, мы обучаем модель интеллектуально переключаться на использование инструментов для более сложных задач. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели демонстрируют улучшение точности ответа на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.

Метод вейвлет-преобразования
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

Пространство векторных представлений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задачи. Мы отмечаем, что большинство подходов к моделированию, коррекции и измерению симметрии пространства векторных представлений предполагают, что частоты слов равномерны; в действительности частоты слов следуют высоко неравномерному распределению, известному как закон Ципфа. Удивительно, что простое выполнение PCA-белизны, взвешенной эмпирической частотой слов, следующей закону Ципфа, значительно улучшает производительность задачи, превосходя установленные базовые уровни. С теоретической точки зрения как наш подход, так и существующие методы могут быть четко классифицированы: представления слов распределены в соответствии с экспоненциальным семейством с равномерными или ципфовскими базовыми мерами. Приняв последний подход, мы естественным образом можем подчеркнуть информативные слова с низкой частотой в терминах их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также в терминах функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и модели языка без головы, работают хорошо просто потому, что их векторные представления слов кодируют эмпирическую частоту слов в основную вероятностную модель.

ПриветМем: Интеграция пространственного внимания вязания для встраивания условий высокого уровня и богатства деталей в модели диффузии
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

Мы предлагаем эффективный метод вставки адаптеров в базовые модели текст-к-изображению, что позволяет выполнять сложные последующие задачи, сохраняя обобщающую способность базовой модели. Основная идея этого метода заключается в оптимизации механизма внимания, связанного с двумерными признаковыми картами, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемовидео и показал значительные результаты. Мы надеемся, что эта работа может пролить свет на задачи послеобучения больших моделей текст-к-изображению. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он имеет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем связанный код (https://songkey.github.io/hellomeme).

LIBMoE: Библиотека для комплексного тестирования смеси экспертов в крупных языковых моделях
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и эффективных больших языковых моделей (LLMs). Из-за огромных требований к ресурсам изучение алгоритмов MoE большого масштаба остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE, комплексный и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Основанный на трех основных принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) всесторонняя оценка, LibMoE делает MoE в LLMs более доступными для широкого круга исследователей путем стандартизации процессов обучения и оценки. Используя LibMoE, мы подробно оценили пять передовых алгоритмов MoE на трех различных LLMs и 11 наборах данных в условиях нулевой настройки. Результаты показывают, что несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно одинаковую производительность при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет бесценным инструментом для исследователей, позволяющим сделать значительные шаги к следующему поколению MoE и LLMs. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer: Прогнозирование состояния здоровья литий-ионных аккумуляторов с использованием Mamba моделей пространства состояний.
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, определяющим оставшуюся емкость и оставшийся срок службы аккумулятора. В данной статье мы предлагаем SambaMixer - новую структурированную модель пространства состояний (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предложенная SSM основана на архитектуре MambaMixer, разработанной для обработки многомерных временных сигналов. Мы оцениваем нашу модель на наборе данных разряда батареи NASA и показываем, что наша модель превосходит существующие модели на этом наборе данных. Мы также представляем новый метод ресэмплинга на основе якорей, который гарантирует, что временные сигналы имеют ожидаемую длину, а также служит как метод аугментации. Наконец, мы условляем прогнозирование от времени выборки и разницы во времени цикла, используя позиционные кодирования, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна прогнозировать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.

Набор данных GRS-QA -- Набор данных для вопросно-ответной системы на основе графового рассуждения.
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Большие языковые модели (LLM) превосходно справляются с многошаговым вопросно-ответным моделированием (M-QA) благодаря своим продвинутым способностям к рассуждениям. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных для вопросно-ответных задач, предоставляющих тонкие структуры рассуждений. Для решения этого пробела мы представляем набор данных для вопросно-ответных задач с графовой структурой рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений путем построения графов рассуждений, где узлы представляют текстовые контексты, а ребра обозначают логические потоки. Эти графы рассуждений различных структур позволяют тонко оценить способности LLM к рассуждениям по различным структурам рассуждений. Наше эмпирическое анализ показывает, что LLM проявляют различное поведение при обработке вопросов с различными структурами рассуждений. Это открытие способствует исследованию текстовых структур по сравнению с семантикой.

M2rc-Eval: Массово-многоязычное оценивание завершения кода на уровне репозитория
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

Уровень репозитория по завершению кода привлекает большое внимание в области программной инженерии, и были представлены несколько эталонных наборов данных. Однако существующие эталонные наборы данных по завершению кода на уровне репозитория обычно сосредоточены на ограниченном количестве языков (<5), что не позволяет оценить общие способности кодового интеллекта на разных языках для существующих крупных языковых моделей (LLM). Кроме того, существующие эталонные наборы обычно представляют общие средние показатели по разным языкам, где не учитываются тонкие способности в различных сценариях завершения. Для облегчения исследований LLM кода в мультиязычных сценариях мы предлагаем массовый мультиязычный эталон по завершению кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), и два типа тонких аннотаций (т.е. на уровне корзины и семантического уровня) по различным сценариям завершения предоставлены, где мы получаем эти аннотации на основе разобранного абстрактного синтаксического дерева. Более того, мы также составляем массовый мультиязычный корпус инструкций M2RC-INSTRUCT для улучшения способностей завершения кода на уровне репозитория существующих LLM кодов. Обширные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

WikiNER-fr-gold: Золотой стандартный корпус для распознавания именованных сущностей.
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предоставляем его сконсолидированную версию. Аннотация WikiNER была создана в полу-супервизионном режиме, то есть без последующей ручной верификации. Такой корпус называется серебряным стандартом. В данной статье мы предлагаем WikiNER-fr-gold, который является пересмотренной версией французской части WikiNER. Наш корпус состоит из случайно отобранных 20% от исходного французского подкорпуса (26 818 предложений с 700 тыс. токенов). Мы начинаем с обзора типов сущностей, включенных в каждую категорию, для определения руководства по аннотации, а затем приступаем к пересмотру корпуса. Наконец, мы представляем анализ ошибок и несоответствий, выявленных в корпусе WikiNER-fr, и обсуждаем потенциальные направления для будущих исследований.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

OS-ATLAS: Модель действий на основе фундаментальных принципов для агентов общего назначения с графическим интерфейсом пользователя.
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Персонализация больших языковых моделей: обзор
Personalization of Large Language Models: A Survey

Oct 29

Постоянное ускорение потока
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

ПОМИДОР: Оценка визуальных временных рассуждений в мультимодальных базовых моделях
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Случайная авторегрессионная визуальная генерация
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: Динамический визуальный бенчмарк для оценки устойчивости математического рассуждения моделей языка видения.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Физика в предсказании следующего токена
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT или BERT: почему бы и нет обоих?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Обзор дизайна пользовательского интерфейса и техник взаимодействия в приложениях генеративного искусственного интеллекта
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Модель видеораспространения Fashion-VDM для виртуальной примерки.
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

В контексте LoRA для Диффузионных Трансформеров
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Простое обезличивание лиц
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2: Эффективная и геометрически точная реконструкция для крупномасштабных сцен
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Адаптация в процессе обучения: закрепление LLM для научных проблем с использованием интеллектуальной адаптации инструментов.
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Метод вейвлет-преобразования
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

ПриветМем: Интеграция пространственного внимания вязания для встраивания условий высокого уровня и богатства деталей в модели диффузии
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

LIBMoE: Библиотека для комплексного тестирования смеси экспертов в крупных языковых моделях
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

SambaMixer: Прогнозирование состояния здоровья литий-ионных аккумуляторов с использованием Mamba моделей пространства состояний.
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

Набор данных GRS-QA -- Набор данных для вопросно-ответной системы на основе графового рассуждения.
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval: Массово-многоязычное оценивание завершения кода на уровне репозитория
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold: Золотой стандартный корпус для распознавания именованных сущностей.
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau