HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

27 papers found

We-Math: Достигает ли ваша большая мультимодальная модель математического рассуждения, аналогичного человеческому?
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Jul 1

ByRunqi Qiao, Qiuna Tan, Guanting Dong, Minhui Wu, Chong Sun, Xiaoshuai Song, Zhuoma GongQue, Shanglin Lei, Zhe Wei, Miaoxuan Zhang, Runfeng Qiao, Yifan Zhang, Xiao Zong, Yida Xu, Muxi Diao, Zhimin Bao, Chen Li, Honggang Zhang

Визуальное математическое мышление, как фундаментальная способность к визуальному мышлению, получило широкое внимание от сообщества крупных мультимодальных моделей (LMMs). Существующие бенчмарки, такие как MathVista и MathVerse, больше сосредотачиваются на результативной производительности, но пренебрегают основными принципами в усвоении знаний и обобщении. Вдохновленные человекоподобным математическим мышлением, мы представляем WE-MATH, первый бенчмарк, специально разработанный для исследования принципов решения проблем за пределами конечной производительности. Мы тщательно собрали и классифицировали 6.5K визуальных математических задач, охватывающих 67 иерархических концепций знаний и пять уровней гранулярности знаний. Мы декомпозируем составные задачи на подзадачи в соответствии с требуемыми концепциями знаний и представляем новую четырехмерную метрику, а именно Недостаточное Знание (IK), Недостаточная Обобщенность (IG), Полное Овладение (CM) и Механическое Запоминание (RM), для иерархической оценки врожденных проблем в процессе рассуждения LMMs. С помощью WE-MATH мы проводим тщательную оценку существующих LMMs в визуальном математическом мышлении и раскрываем отрицательную корреляцию между шагами решения и производительностью по конкретным задачам. Мы подтверждаем, что проблему IK LMMs можно эффективно улучшить с помощью стратегий дополнения знаний. Более того, основной вызов для GPT-4o значительно перешел от IK к IG, утверждая его как первую LMM, продвигающуюся к стадии обобщения знаний. В отличие от этого, другие LMMs проявляют явную тенденцию к Механическому Запоминанию - они правильно решают составные задачи, включающие несколько концепций знаний, но не могут ответить на подзадачи. Мы предвкушаем, что WE-MATH откроет новые пути для продвижения в визуальном математическом мышлении для LMMs. Данные и код оценки WE-MATH доступны по адресу https://github.com/We-Math/We-Math.

ROS-LLM: ROS-фреймворк для инкорпорированного искусственного интеллекта с обратной связью по задаче и структурированным рассуждением.
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

Jun 28

ByChristopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar

Мы представляем фреймворк для интуитивного программирования роботов неспециалистами, используя естественноязыковые подсказки и контекстную информацию из Операционной Системы Роботов (ROS). Наша система интегрирует большие языковые модели (LLM), позволяя неспециалистам формулировать требования к задачам системе через чат-интерфейс. Основные особенности фреймворка включают: интеграцию ROS с искусственным интеллектом, подключенным к множеству открытых и коммерческих LLM, автоматическое извлечение поведения из вывода LLM и выполнение действий/сервисов ROS, поддержку трех режимов поведения (последовательность, дерево поведения, конечный автомат), обучение имитацией для добавления новых действий робота в библиотеку возможных действий, и отражение LLM через обратную связь человека и окружения. Обширные эксперименты подтверждают эффективность фреймворка, демонстрируя его надежность, масштабируемость и универсальность в различных сценариях, включая задачи с долгосрочным горизонтом, перестановки на столе и удаленное управление супервайзером. Для облегчения принятия нашего фреймворка и поддержки воспроизведения наших результатов, мы сделали наш код открытым. Вы можете получить доступ к нему по ссылке: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.

ColPali: Эффективный поиск документов с помощью моделей визуально-языковых данных
ColPali: Efficient Document Retrieval with Vision Language Models

Jun 27

ByManuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo

Документы представляют собой визуально насыщенные структуры, которые передают информацию с помощью текста, а также таблиц, рисунков, макетов страниц или шрифтов. В то время как современные системы поиска документов проявляют высокую производительность в сопоставлении запросов с текстом, они испытывают затруднения в эффективном использовании визуальных подсказок, что затрудняет их производительность в практических приложениях поиска документов, таких как Поиск с Расширением Генерации. Для оценки текущих систем по визуальному поиску документов мы представляем бенчмарк визуального поиска документов ViDoRe, состоящий из различных задач по извлечению на уровне страниц, охватывающих несколько областей, языков и настроек. Врожденные недостатки современных систем мотивируют введение новой архитектуры модели поиска, ColPali, которая использует возможности понимания документов недавних моделей Визуального Языка для создания контекстуализированных векторных представлений высокого качества исключительно из изображений страниц документов. В сочетании с механизмом сопоставления позднего взаимодействия, ColPali в значительной степени превосходит современные конвейеры поиска документов, при этом значительно ускоряется и обучается end-to-end.

RegMix: Смесь данных как регрессия для предварительного обучения языковой модели
RegMix: Data Mixture as Regression for Language Model Pre-training

Jul 1

ByQian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin

Смесь данных для предварительного обучения крупных языковых моделей значительно влияет на производительность, однако как определить эффективную смесь остается неясным. Мы предлагаем RegMix для автоматической идентификации высокопроизводительной смеси данных, формулируя это как задачу регрессии. RegMix включает в себя обучение набора небольших моделей с разнообразными смесями данных и подгонку регрессионной модели для прогнозирования их производительности с учетом их соответствующих смесей. С помощью подогнанной регрессионной модели мы симулируем лучшую смесь и используем ее для обучения модели крупного масштаба с порядком большим вычислительным потенциалом. Для эмпирической проверки RegMix мы обучаем 512 моделей с 1M параметрами для 1B токенов различных смесей для подгонки регрессионной модели и находим оптимальную смесь. Используя эту смесь, мы обучаем модель с 1B параметрами для 25B токенов (т.е. в 1000 раз больше и на 25 раз дольше), которая, как мы обнаружили, показывает лучшие результаты среди 64 кандидатских моделей с 1B параметрами и другими смесями. Кроме того, наш метод демонстрирует превосходную производительность по сравнению с человеческим выбором и достигает результатов, соответствующих или превосходящих DoReMi, используя лишь 10% бюджета на вычисления. Наши эксперименты также показывают, что (1) Смеси данных значительно влияют на производительность с вариациями производительности однозадачных моделей до 14.6%; (2) Веб-корпуса, а не данные, воспринимаемые как высококачественные, такие как Википедия, имеют наиболее сильную положительную корреляцию с последующей производительностью; (3) Домены взаимодействуют сложным образом, часто противореча общему смыслу, поэтому необходимы автоматические подходы, такие как RegMix; (4) Эффекты смеси данных превосходят законы масштабирования, и наш подход улавливает сложность, рассматривая все домены вместе. Наш код доступен по адресу https://github.com/sail-sg/regmix.

LiteSearch: эффективный поиск дерева для LLM
LiteSearch: Efficacious Tree Search for LLM

Jun 29

ByAnte Wang, Linfeng Song, Ye Tian, Baolin Peng, Dian Yu, Haitao Mi, Jinsong Su, Dong Yu

Недавние исследования показывают, что алгоритмы поиска дерева (например, Монте-Карло поиск дерева) могут значительно улучшить производительность LLM на сложных математических задачах рассуждения. Однако они часто требуют более чем в 10 раз больше вычислительных ресурсов по сравнению с жадным декодированием из-за неэффективных стратегий поиска, что затрудняет их применение в практических приложениях. В данном исследовании представлен новый алгоритм направленного поиска дерева с динамическим выбором узла и расчетом бюджета исследования на уровне узла (максимальное количество потомков) для решения этой проблемы. Учитывая прогресс поиска к конечному ответу (история) и руководство от сети значений (будущее), обученной без шаговых аннотаций, наш алгоритм итеративно выбирает наиболее перспективный узел дерева перед его расширением в пределах выделенного вычислительного бюджета. Эксперименты, проведенные на наборах данных GSM8K и TabMWP, показывают, что наш подход не только обеспечивает конкурентоспособную производительность, но также имеет значительно более низкие вычислительные затраты по сравнению с базовыми методами.

MMEvalPro: Калибровка мультимодальных бенчмарков в направлении надежной и эффективной оценки
MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

Jun 29

ByJinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang

Большие мультимодальные модели (LMM) проявляют впечатляющее понимание и способности к рассуждениям между модальностями, часто оцениваемые через множественный выбор (MCQ), который включает изображение, вопрос и несколько вариантов ответов. Однако многие используемые для таких оценок бенчмарки страдают от систематических искажений. Замечательно, что большие языковые модели (LLM) без каких-либо визуальных способностей восприятия достигают значительной производительности, подрывая доверие к этим оценкам. Для решения этой проблемы, сохраняя при этом эффективность оценки MCQ, мы предлагаем MMEvalPro, бенчмарк, разработанный для избежания ошибок первого рода через трехэтапную систему оценки и более строгие метрики. Для каждого изначального вопроса из существующих бенчмарков человеческие аннотаторы дополняют его, создавая вопрос восприятия и вопрос-якорь знаний через тщательный процесс аннотации. MMEvalPro включает 2 138 троек вопросов, общим числом 6 414 различных вопросов. Две трети этих вопросов помечены вручную экспертами, в то время как остальные взяты из существующих бенчмарков (MMMU, ScienceQA и MathVista). По сравнению с существующими бенчмарками, наши эксперименты с последними LLM и LMM показывают, что MMEvalPro более сложен (лучшая LMM отстает от производительности человека на 31,73%, по сравнению с средним разрывом в 8,03% в предыдущих бенчмарках) и более надежен (лучшая LLM уступает лучшей LMM на 23,09%, в то время как разрыв для предыдущих бенчмарков составляет всего 14,64%). Наш анализ подробно объясняет причину большого разрыва в производительности и обосновывает надежность оценки, подчеркивая ее значительный потенциал для продвижения будущих исследований.

Вейвлеты - все, что вам нужно для авторегрессивной генерации изображений.
Wavelets Are All You Need for Autoregressive Image Generation

Jun 28

ByWael Mattar, Idan Levy, Nir Sharon, Shai Dekel

В данной статье мы предлагаем новый подход к авторегрессивной генерации изображений, основанный на двух основных компонентах. Первый компонент - это вейвлет-кодирование изображений, которое позволяет токенизировать визуальные детали изображения от грубых к более детальным, упорядочивая информацию, начиная с наиболее значимых битов наиболее значимых вейвлет-коэффициентов. Второй компонент - вариант языкового трансформера, архитектура которого переработана и оптимизирована для последовательностей токенов в этом "вейвлет-языке". Трансформер изучает значительные статистические корреляции в последовательности токенов, которые являются проявлением известных корреляций между вейвлет-поддиапазонами на различных разрешениях. Мы представляем экспериментальные результаты с условиями на процесс генерации.

DiffIR2VR-Zero: Восстановление видео без обучения с использованием моделей восстановления изображений на основе диффузии
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Jul 1

ByChang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu

Данный документ представляет метод нулевой видео восстановления с использованием предварительно обученных моделей диффузии восстановления изображений. Традиционные методы восстановления видео часто требуют повторного обучения для различных настроек и испытывают трудности с ограниченной обобщаемостью по различным типам деградации и наборам данных. Наш подход использует иерархическую стратегию слияния токенов для ключевых кадров и локальных кадров, в сочетании с гибридным механизмом соответствия, который объединяет оптический поток и сопоставление на основе признаков ближайших соседей (слияние латентных). Мы показываем, что наш метод не только достигает лучших результатов в нулевом видео восстановлении, но также значительно превосходит обученные модели в обобщении по различным наборам данных и экстремальным деградациям (восемькратное увеличение разрешения и видео-шумоподавление с высоким стандартным отклонением). Мы представляем доказательства через количественные метрики и визуальные сравнения на различных сложных наборах данных. Кроме того, наша техника работает с любой двумерной моделью диффузии восстановления, предлагая универсальный и мощный инструмент для задач улучшения видео без обширного повторного обучения. Это исследование приводит к более эффективным и широко применимым технологиям восстановления видео, поддерживая прогресс в областях, требующих высококачественного видеовыхода. Смотрите нашу страницу проекта для видеорезультатов по ссылке https://jimmycv07.github.io/DiffIR2VR_web/.

Управляемый шагами DPO: Использование пошаговой ошибки для улучшенного математического рассуждения
Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning

Jun 30

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan

Прямая оптимизация предпочтений (Direct Preference Optimization, DPO) доказала свою эффективность в улучшении производительности больших моделей языка (Large Language Models, LLMs) на последующих задачах, таких как рассуждения и выравнивание. В данной работе мы предлагаем Шагово-Контролируемую Прямую Оптимизацию Предпочтений (Step-Controlled DPO, SCDPO), метод автоматического предоставления пошагового контроля ошибок путем создания отрицательных образцов рационалей математических рассуждений, начиная с ошибок на определенном шаге. Применяя эти образцы в обучении DPO, SCDPO может лучше выравнивать модель для понимания ошибок в рассуждениях и вывода точных шагов рассуждений. Мы применяем SCDPO как к решениям с интегрированным кодом, так и к последовательным решениям, эмпирически показывая, что он последовательно улучшает производительность по сравнению с наивной DPO на трех различных моделях SFT, включая одну существующую модель SFT и две модели, которые мы донастраивали. Качественный анализ присвоения кредитов SCDPO и DPO демонстрирует эффективность SCDPO в выявлении ошибок в математических решениях. Затем мы применяем SCDPO к модели InternLM2-20B, что приводит к модели 20B, достигающей высоких результатов 88.5% на GSM8K и 58.1% на MATH, конкурируя со всеми другими открытыми LLMs, показывая великий потенциал нашего метода.

InstantStyle-Plus: Перенос стиля с сохранением контента в генерации текста в изображение
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation

Jun 30

ByHaofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai

Перенос стиля - это инновационный процесс, разработанный для создания изображения, которое сохраняет суть оригинала, но принимает визуальный стиль другого. Хотя модели диффузии продемонстрировали впечатляющую генеративную мощь в персонализированных приложениях, ориентированных на субъекта или стиль, существующие передовые методы все еще сталкиваются с трудностями в достижении плавного баланса между сохранением контента и улучшением стиля. Например, увеличение влияния стиля часто может подорвать структурную целостность контента. Для решения этих проблем мы деконструируем задачу переноса стиля на три основных элемента: 1) Стиль, сосредотачиваясь на эстетических характеристиках изображения; 2) Пространственная структура, касающаяся геометрического расположения и композиции визуальных элементов; и 3) Семантическое содержание, которое улавливает концептуальное значение изображения. Руководствуясь этими принципами, мы представляем InstantStyle-Plus, подход, который придает приоритет целостности оригинального контента, одновременно плавно интегрируя целевой стиль. В частности, наш метод достигает внедрения стиля через эффективный, легкий процесс, используя передовую структуру InstantStyle. Для усиления сохранения контента мы инициируем процесс с инвертированным содержанием скрытого шума и универсальной плаг-энд-плей плиткой ControlNet для сохранения внутреннего макета оригинального изображения. Мы также включаем глобальный семантический адаптер для улучшения достоверности семантического содержания. Для защиты от разбавления информации о стиле используется извлекатель стиля в качестве дискриминатора для предоставления дополнительного стилевого руководства. Коды будут доступны на https://github.com/instantX-research/InstantStyle-Plus.

E2 TTS: Крайне простая полностью некондиционная нулевая генерация речи
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

Jun 26

BySefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Xu Tan, Yanqing Liu, Sheng Zhao, Naoyuki Kanda

В данной статье представлена технология Embarrassingly Easy Text-to-Speech (E2 TTS) - полностью нерекурсивная система синтеза речи из текста с нулевым шагом, обеспечивающая естественность на уровне человеческой идентичности диктора и понимаемости на уровне передовых технологий. В рамках E2 TTS входной текст преобразуется в последовательность символов с заполнителями. Генератор мел-спектрограмм на основе сопоставления потока затем обучается на основе задачи аудио-дополнения. В отличие от многих предыдущих работ, для E2 TTS не требуются дополнительные компоненты (например, модель длительности, графема-фонема) или сложные техники (например, поиск монотонного выравнивания). Несмотря на свою простоту, E2 TTS достигает передовых возможностей нулевого синтеза речи, сравнимых или превосходящих предыдущие работы, включая Voicebox и NaturalSpeech 3. Простота E2 TTS также обеспечивает гибкость в представлении входных данных. Мы предлагаем несколько вариантов E2 TTS для улучшения удобства использования в процессе вывода. Для демонстрационных образцов посетите https://aka.ms/e2tts/.

Действительно ли длинный контекст необходим, если всё, что вам нужно, - это извлечение? К подлинно сложным задачам обработки естественного языка с длинным контекстом.
Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

Jun 29

ByOmer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty

Улучшения в возможностях языковых моделей расширили область их применения на более длинные контексты, что привело к активному исследованию долгих контекстов и разработке в этой области. Однако множество различных случаев использования объединяются под общим термином "долгий контекст", определяемым просто общей длиной входных данных модели, включая, например, задачи поиска иголки в стоге сена, резюмирование книг и агрегирование информации. Учитывая их различную сложность, в данной позиционной статье мы утверждаем, что смешивание различных задач по их длине контекста неэффективно. Как сообщество, нам требуется более точный словарь для понимания того, что делает долгие контексты похожими или различными. Мы предлагаем разложить таксономию долгих контекстов на основе свойств, делающих их более сложными с увеличением контекста. Мы предлагаем две ортогональные оси сложности: (I) Диффузия: насколько сложно найти необходимую информацию в контексте? (II) Объем: сколько необходимой информации необходимо найти? Мы проанализировали литературу по долгим контекстам, обосновали эту таксономию как информативный дескриптор и определили место литературы относительно нее. Мы пришли к выводу, что наиболее сложные и интересные сценарии, в которых необходимая информация очень длинная и сильно разбросана во входных данных, пока мало исследованы. Используя описательный словарь и обсуждая соответствующие свойства сложности в долгих контекстах, мы можем проводить более информированные исследования в этой области. Мы призываем к тщательному проектированию задач и бенчмарков с явно длинным контекстом, учитывая характеристики, которые делают его качественно отличным от более короткого контекста.

RealTalk: Генерация лиц на основе аудио в реальном времени с учетом реалистичности с помощью сети выравнивания личности с учетом трехмерного предварительного направления лица.
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

Jun 26

ByXiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang

Генерация лица по аудиосигналу для общего лица является сложной задачей в компьютерном зрении. Предыдущие методы достигли значительного прогресса в синхронизации аудио-видео, однако между текущими результатами и практическими применениями по-прежнему существует значительный разрыв. Вызовы двойные: 1) Сохранение уникальных индивидуальных черт для достижения высокоточной синхронизации губ. 2) Генерация высококачественных визуализаций лиц в реальном времени. В данной статье мы предлагаем новую обобщенную аудио-ориентированную структуру RealTalk, которая состоит из трансформатора аудио-выражения и высококачественного рендерера выражений-лиц. В первом компоненте мы рассматриваем как идентичность, так и особенности внутриличностных вариаций, связанных с движениями губ при произнесении. Путем включения кросс-модального внимания к обогащенным лицевым данным мы можем эффективно выравнивать движения губ с аудио, достигая тем самым большей точности в предсказании выражения. Во втором компоненте мы разрабатываем модуль легкой идентификации лица (FIA), включающий структуру управления формой губ и структуру текстуры лица. Этот новаторский дизайн позволяет нам генерировать мелкие детали в реальном времени, не завися от сложных и неэффективных модулей выравнивания особенностей. Наши экспериментальные результаты, как количественные, так и качественные, на общедоступных наборах данных демонстрируют явные преимущества нашего метода в плане синхронизации речи и качества генерации губ. Более того, наш метод эффективен и требует меньше вычислительных ресурсов, что делает его отлично подходящим для практических применений.

MIRAI: Оценка агентов LLM для прогнозирования событий
MIRAI: Evaluating LLM Agents for Event Forecasting

Jul 1

ByChenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang

Недавние достижения в области крупных языковых моделей (LLM) дали возможность агентам LLM автономно собирать информацию о мире, на основе которой проводится рассуждение для решения сложных задач. Учитывая эту способность, возрос интерес к использованию агентов LLM для прогнозирования международных событий, которые могут влиять на принятие решений и формирование политики на международном уровне. Несмотря на такой растущий интерес, отсутствует строгий критерий оценки способности и надежности прогнозирования агентов LLM. Для заполнения этой пробела мы представляем MIRAI, новый критерий, разработанный для систематической оценки агентов LLM в качестве временных прогностиков в контексте международных событий. Наш критерий представляет собой агентную среду с инструментами для доступа к обширной базе данных исторических структурированных событий и текстовых новостных статей. Мы улучшаем базу данных событий GDELT, тщательно очищая и разбирая ее, чтобы создать серию задач по прогнозированию отношений с различными горизонтами прогнозирования, оценивая способности агентов LLM от краткосрочного до долгосрочного прогнозирования. Мы также реализуем API для возможности использования агентами LLM различных инструментов через интерфейс на основе кода. В заключение, MIRAI всесторонне оценивает способности агентов в трех измерениях: 1) автономное сбор и интеграция критической информации из обширных глобальных баз данных; 2) написание кодов с использованием API и библиотек для использования инструментов; и 3) совместное рассуждение на основе исторических знаний различных форматов и времени для точного прогнозирования будущих событий. Через всестороннюю оценку мы стремимся создать надежную основу для оценки способностей агентов LLM в прогнозировании международных событий, тем самым способствуя развитию более точных и надежных моделей для анализа международных отношений.

OmniJARVIS: Единая токенизация видения-языка-действия обеспечивает агентов, следующих инструкциям в открытом мире
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

Jun 27

ByZihao Wang, Shaofei Cai, Zhancun Mu, Haowei Lin, Ceyao Zhang, Xuejie Liu, Qing Li, Anji Liu, Xiaojian Ma, Yitao Liang

Мы представляем OmniJARVIS, новую модель Vision-Language-Action (VLA) для агентов, следующих за инструкциями в открытом мире Minecraft. По сравнению с предыдущими работами, которые либо передают текстовые цели отдельным контроллерам, либо непосредственно производят управляющую команду, OmniJARVIS ищет другой путь для обеспечения как сильного рассуждения, так и эффективных возможностей принятия решений путем унифицированной токенизации мультимодальных данных взаимодействия. Во-первых, мы представляем самообучающийся подход для изучения кодера поведения, который производит дискретизированные токены для траекторий поведения tau = {o_0, a_0, точки} и декодер политики имитационного обучения (IL), условились на этих токенах. Эти дополнительные токены поведения будут дополнены к словарю предварительно обученных мультимодальных языковых моделей (MLM). С помощью этого кодера мы упаковываем долгосрочные мультимодальные взаимодействия, включающие инструкции задач, память, мысли, наблюдения, текстовые ответы, траектории поведения и т. д., в единые последовательности токенов и моделируем их с помощью авторегрессионных трансформеров. Благодаря семантически значимым токенам поведения результирующая модель VLA, OmniJARVIS, может рассуждать (производя цепочку мыслей), планировать, отвечать на вопросы и действовать (производя токены поведения для декодера политики IL). OmniJARVIS демонстрирует отличные результаты на обширной коллекции атомарных, программных и открытых задач в открытом мире Minecraft. Наш анализ также раскрывает ключевые принципы проектирования в формировании данных взаимодействия, унифицированной токенизации и ее потенциалы масштабирования.

Автоматический сборщик вишен: обучение на высококачественных генеративных данных, управляемых языком
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

Jun 28

ByYicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen

Модели на основе диффузии показали большой потенциал в генерации изображений высокого качества с различными композициями, что может быть полезно для последующих задач восприятия. Однако полностью автоматическая генерация композиций, управляемая только языком, и подходящая метрика для измерения нескольких сгенерированных экземпляров пока недостаточно исследованы. В данной работе мы представляем Auto Cherry-Picker (ACP), новую структуру, которая генерирует многомодальные обучающие примеры высокого качества для расширения восприятия и многомодального обучения. Начиная с простого списка естественноязыковых концепций, мы подталкиваем крупные языковые модели (LLM) к генерации подробного описания и разработке разумных композиций. Затем мы используем готовую модель текста в изображение для генерации нескольких изображений. Затем сгенерированные данные улучшаются с использованием всесторонне разработанной метрики для обеспечения качества. В частности, мы представляем новую метрику, Составной Рейтинг Композиции и Изображения (CLIS), для справедливой оценки сгенерированных изображений. Наши синтетические примеры высокого качества повышают производительность в различных сценариях путем настройки начального списка концепций, особенно при решении проблем, связанных с длиннохвостым распределением и несбалансированными наборами данных. Результаты экспериментов на последующих задачах демонстрируют, что Auto Cherry-Picker может значительно улучшить производительность существующих моделей. Кроме того, мы тщательно исследовали корреляцию между CLIS и увеличением производительности на последующих задачах и обнаружили, что более высокий балл CLIS приводит к лучшей производительности. Это открытие показывает потенциал метрик оценки в качестве роли для различных задач визуального восприятия и MLLM. Код будет доступен.

T-MAC: Возрождение ЦПУ с помощью таблицы поиска для развертывания низкобитового LLM на краю
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

Jun 25

ByJianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang

Развертывание больших языковых моделей (LLM) на периферийных устройствах становится все более важным для улучшения интеллекта на устройстве. Квантование весов критично для уменьшения объема памяти LLM на устройствах. Однако низкобитовые LLM требуют смешанного умножения матриц с низкой точностью (mpGEMM) весов и высокой точности активаций во время вывода. Существующие системы, не имеющие встроенной поддержки для mpGEMM, прибегают к деквантованию весов для высокоточных вычислений. Такой косвенный способ может привести к значительным накладным расходам при выводе. В данной статье мы представляем T-MAC, инновационный метод на основе таблицы поиска (LUT), разработанный для эффективного вывода низкобитовых LLM (т.е. весово-квантованных LLM) на ЦП. T-MAC напрямую поддерживает mpGEMM без деквантования, одновременно устраняя умножения и уменьшая требуемые сложения. Конкретно, T-MAC преобразует традиционное умножение, ориентированное на тип данных, в поиск по таблице битов и обеспечивает единое и масштабируемое решение для mpGEMM. Наши ядра на основе LUT масштабируются линейно по ширине бита веса. Оцененный на моделях Llama и BitNet с низким битовым разрешением, T-MAC демонстрирует увеличение пропускной способности до 4 раз и снижение энергопотребления на 70% по сравнению с llama.cpp. Для BitNet-b1.58-3B T-MAC обеспечивает скорость генерации токенов 30 токенов/с на одном ядре и 71 токен/с на восьми ядрах на M2-Ultra, и 11 токенов/с на устройствах более низкого уровня, таких как Raspberry Pi 5, что значительно превышает среднюю скорость чтения взрослого. T-MAC с парадигмой вычислений на основе LUT открывает путь для практического развертывания низкобитовых LLM на ресурсоемких периферийных устройствах без ущерба для вычислительной эффективности. Система доступна в открытом доступе по адресу https://github.com/microsoft/T-MAC.

Цепочка знаний: Интеграция логического вывода знаний в крупномасштабные языковые модели путем обучения на графах знаний.
Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs

Jun 30

ByYifei Zhang, Xintao Wang, Jiaqing Liang, Sirui Xia, Lida Chen, Yanghua Xiao

Большие языковые модели (LLM) продемонстрировали впечатляющую компетентность в различных задачах обработки естественного языка (NLP), которые включают в себя все более сложное рассуждение. Рассуждение на основе знаний, основной тип рассуждения, направлено на вывод новых знаний из существующих. Хотя оно широко изучалось в контексте графов знаний (KG), рассуждение на основе знаний в LLM остается мало исследованным. В данной статье мы представляем Chain-of-Knowledge, комплексную структуру для рассуждения на основе знаний, включая методики как для построения набора данных, так и для обучения модели. Для построения набора данных мы создаем KnowReason с помощью добычи правил на основе графов знаний. Для обучения модели мы наблюдаем переобучение на правилах, вызванное наивным обучением. Поэтому мы улучшаем CoK механизмом проб и ошибок, который имитирует процесс внутреннего исследования знаний человека. Мы проводим обширные эксперименты с KnowReason. Наши результаты показывают эффективность CoK не только в улучшении LLM в рассуждениях на основе знаний, но и в общих бенчмарках рассуждения.

К устойчивому обучению представлений речи для тысяч языков
Towards Robust Speech Representation Learning for Thousands of Languages

Jun 30

ByWilliam Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe

Самообучение (SSL) помогло расширить технологии речи на большее количество языков за счет сокращения необходимости в размеченных данных. Однако модели все еще далеки от поддержки более чем 7000 языков мира. Мы предлагаем XEUS, Кросс-языковой Кодировщик для Универсальной Речи, обученный на более чем 1 миллионе часов данных по 4057 языкам, увеличивая охват языков моделей SSL в 4 раза. Мы объединяем 1 миллион часов речи из существующих общедоступных корпусов с недавно созданным корпусом более чем 7400 часов по 4057 языкам, который будет общедоступно опубликован. Для работы с разнообразными условиями мультиязычных данных речи мы дополняем типичный подход самообучения с маскировкой предсказаний новой целью декорреляции, повышая устойчивость. Мы оцениваем XEUS на нескольких показателях и показываем, что он последовательно превосходит или достигает сравнимых результатов с передовыми моделями SSL (SOTA) по различным задачам. XEUS устанавливает новый SOTA на показателе ML-SUPERB: он превосходит MMS 1B и w2v-BERT 2.0 v2 на 0.8% и 4.4% соответственно, несмотря на меньшее количество параметров или предварительных данных. Чекпоинты, код и данные можно найти на https://www.wavlab.org/activities/2024/xeus/.

SVG: Генерация трехмерного стереоскопического видео с помощью матрицы фреймов денойзинга
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

Jun 29

ByPeng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang

Модели генерации видео продемонстрировали впечатляющие возможности в создании впечатляющих монокулярных видео, однако генерация трехмерного стереоскопического видео остается мало исследованной. Мы предлагаем подход без учета позы и обучения для создания трехмерных стереоскопических видео с использованием готовой модели генерации монокулярного видео. Наш метод искажает сгенерированное монокулярное видео в камерные виды на стереоскопической базовой линии с использованием оцененной глубины видео и применяет новую рамочную матричную схему заполнения видео. Схема использует модель генерации видео для заполнения кадров, полученных из разных временных меток и видов. Этот эффективный подход генерирует согласованные и семантически согласованные стереоскопические видео без оптимизации сцены или тонкой настройки модели. Более того, мы разработали схему повторного внедрения границ дисоклюзии, которая дополнительно улучшает качество заполнения видео, смягчая негативные эффекты, распространяемые из областей дисоклюзии в скрытом пространстве. Мы подтверждаем эффективность нашего предложенного метода, проводя эксперименты на видео из различных генеративных моделей, включая Sora [4], Lumiere [2], WALT [8] и Zeroscope [42]. Эксперименты показывают, что наш метод имеет значительное улучшение по сравнению с предыдущими методами. Код будет опубликован на https://daipengwa.github.io/SVG_ProjectPage.

Показывайте меньше, инструктируйте больше: обогащение подсказок определениями и руководствами для нулевой разметки именованных сущностей.
Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER

Jul 1

ByAndrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini

В последнее время появилось несколько специализированных инструкциями настроенных крупных языковых моделей (LLM) для распознавания именованных сущностей (NER). По сравнению с традиционными подходами к NER, эти модели обладают сильными обобщающими способностями. Существующие LLM в основном сосредотачиваются на нулевом распознавании NER в распределениях вне области, которые донастраиваются на обширное количество классов сущностей, которые часто сильно или полностью перекрываются с тестовыми наборами. В этой работе, вместо этого, мы предлагаем SLIMER, подход, разработанный для решения никогда ранее не встречавшихся тегов именованных сущностей, инструктируя модель на меньшем количестве примеров и используя подсказку, обогащенную определением и руководствами. Эксперименты показывают, что определение и руководства обеспечивают лучшую производительность, более быстрое и устойчивое обучение, особенно при разметке невидимых именованных сущностей. Более того, SLIMER работает сравнимо с передовыми подходами в нулевом распознавании NER вне области, в то время как обучается на уменьшенном наборе тегов.

DogeRM: Обогащение моделей вознаграждения знаниями области с помощью слияния моделей
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Jul 1

ByTzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen

Обучение с подкреплением на основе обратной связи от человека (RLHF) является популярной стратегией для выравнивания больших языковых моделей (LLM) с желаемыми поведенческими характеристиками. Моделирование вознаграждения является ключевым этапом в RLHF. Однако сбор сопоставленных данных о предпочтениях для обучения моделей вознаграждения часто является затратным и времязатратным, особенно для предпочтений, требующих экспертной аннотации в определенной области. Для решения этой проблемы мы предлагаем модель вознаграждения, объединяющую знания области (DogeRM), новую концепцию, интегрирующую областно-специфические знания в общую модель вознаграждения путем слияния моделей. Эксперименты показывают, что DogeRM повышает производительность на различных тестах и предоставляют детальный анализ, демонстрирующий эффекты слияния моделей и показывающий большой потенциал в облегчении выравнивания моделей.

Бенчмарк SIFo: Исследование способности к последовательному следованию инструкциям крупных языковых моделей
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Jun 28

ByXinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke

Следование множеству инструкций является важным навыком для крупных языковых моделей (LLM). Оценка этого навыка сопряжена с существенными вызовами: (i) ограниченная связность между множеством инструкций, (ii) позиционный эффект, при котором порядок инструкций влияет на производительность модели, и (iii) отсутствие объективно проверяемых задач. Для решения этих проблем мы представляем бенчмарк, разработанный для оценки способностей моделей следовать множеству инструкций через последовательные задачи следования инструкциям (SIFo). В SIFo успешное выполнение нескольких инструкций можно проверить, изучив только конечную инструкцию. Наш бенчмарк оценивает следование инструкциям с помощью четырех задач (модификация текста, вопросно-ответные задачи, математика и следование правилам безопасности), каждая из которых оценивает различные аспекты последовательного следования инструкциям. Наша оценка популярных LLM, как закрытых, так и открытых исходных кодов, показывает, что более новые и крупные модели значительно превосходят своих старых и меньших аналогов в задачах SIFo, подтверждая эффективность бенчмарка. Все модели испытывают затруднения с последовательным следованием инструкциям, указывая на важный недостаток устойчивости современных языковых моделей.

Отзабывание: Отзабывание недостаточно для регулирования контента в передовом генеративном искусственном интеллекте
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

Jun 27

ByIlia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan

Точное забывание было впервые представлено как механизм конфиденциальности, позволяющий пользователю отозвать свои данные из моделей машинного обучения по запросу. Вскоре были предложены неточные схемы для смягчения непрактичных затрат, связанных с точным забыванием. В настоящее время забывание часто обсуждается как подход к удалению недопустимых знаний, т.е. знаний, которыми модель не должна обладать, таких как нелицензионные авторские права, неточная или вредоносная информация. Обещается, что если модель не обладает определенной вредоносной способностью, то она не может использоваться для связанной с этим вредоносной цели. В данной статье мы пересматриваем парадигму, в которой забывание используется для Больших Языковых Моделей (БЯМ) и выделяем противоречие, возникающее из контекстного обучения. Забывание может быть эффективным механизмом управления на этапе обучения, однако оно не предотвращает модель от совершения недопустимого действия во время вывода. Мы вводим концепцию обратного забывания, где забытые знания вновь вводятся в контексте, что позволяет модели действовать так, будто она знает забытые знания. В результате мы утверждаем, что для эффективного регулирования контента потребуется фильтрация недопустимых знаний, и даже точные схемы забывания недостаточны для эффективного регулирования контента. Мы обсуждаем возможность обратного забывания для современных БЯМ и рассматриваем более широкие последствия.

Точное предсказание аффинности взаимодействия лиганда и белка с помощью тонко настроенных малых языковых моделей.
Accurate Prediction of Ligand-Protein Interaction Affinities with Fine-Tuned Small Language Models

Jun 27

ByBen Fauber

Мы описываем точное предсказание аффинности взаимодействия лиганд-белок (LPI), также известного как взаимодействие препарат-мишень (DTI), с помощью инструкций, настроенных на предварительно обученные генеративные модели малого языка (SLM). Мы достигли точных прогнозов для различных значений аффинности, связанных с взаимодействиями лиганд-белок на данных, не входивших в обучающую выборку, в режиме нулевого обучения. В качестве входных данных модели использовались только строка SMILES лиганда и последовательность аминокислот белка. Наши результаты демонстрируют явное улучшение по сравнению с методами машинного обучения (ML) и методами на основе свободной энергии (FEP+) в точном предсказании различных аффинностей взаимодействия лиганд-белок, что может быть использовано для ускорения кампаний по поиску лекарств против сложных терапевтических целей.

Стирание токенов как след неявных лексических элементов в языковых моделях на основе машинного обучения.
Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

Jun 28

BySheridan Feucht, David Atkinson, Byron Wallace, David Bau

LLM обрабатывают текст как последовательности токенов, которые грубо соответствуют словам, при этом менее распространенные слова представлены несколькими токенами. Однако отдельные токены часто не имеют семантической связи с значениями слов/концепций, которые они включают. Например, токенизатор Llama-2-7b разбивает слово "northeastern" на токены ['_n', 'ort', 'he', 'astern'], ни один из которых не соответствует семантически значимым единицам, таким как "north" или "east". Аналогично, общие значения именованных сущностей, таких как "Neil Young", и многословных выражений, например "break a leg", нельзя непосредственно вывести из составляющих их токенов. Механически, как LLM преобразуют такие произвольные группы токенов в полезные представления более высокого уровня? В данной работе мы обнаружили, что представления последнего токена именованных сущностей и много-токеновых слов проявляют выраженный "эффект стирания", где информация о предыдущих и текущих токенах быстро забывается на начальных слоях. Используя это наблюдение, мы предлагаем метод "вычитывания" неявного словаря авторегрессивного LLM путем изучения различий в представлениях токенов по слоям и представляем результаты этого метода для Llama-2-7b и Llama-3-8B. На наш взгляд, это первая попытка исследовать неявный словарь LLM.

ProgressGym: Соответствие тысячелетнему моральному прогрессу
ProgressGym: Alignment with a Millennium of Moral Progress

Jun 28

ByTianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang

Системы искусственного интеллекта нового поколения, включая большие языковые модели (LLM), оказывают все более значительное влияние на эпистемологию человеческих пользователей. Такое влияние может укреплять доминирующие общественные ценности, что потенциально способствует закреплению ошибочных моральных убеждений и, следовательно, поддержанию проблематичных моральных практик в широком масштабе. Мы предлагаем прогрессивное выравнивание в качестве технического решения для смягчения этого неминуемого риска. Алгоритмы прогрессивного выравнивания учатся эмулировать механику морального прогресса человека, тем самым решая уязвимость существующих методов выравнивания перед современными моральными слепыми пятнами. Для поддержки исследований в области прогрессивного выравнивания мы представляем ProgressGym - экспериментальную платформу, позволяющую изучать механику морального прогресса из истории для облегчения будущего прогресса в принятии моральных решений в реальном мире. Используя 9 веков исторических текстов и 18 исторических LLM, ProgressGym позволяет кодировать вызовы реального прогрессивного выравнивания в конкретные бенчмарки. В частности, мы представляем три основных вызова: отслеживание эволюции ценностей (PG-Follow), предвосхищение морального прогресса (PG-Predict) и регулирование обратной связи между сдвигами ценностей человека и ИИ (PG-Coevolve). Методы выравнивания без временного измерения не применимы к этим задачам. В ответ на это мы представляем методы пожизненного и экстраполятивного выравнивания в качестве базовых методов прогрессивного выравнивания и создаем открытый рейтинг, принимающий новые алгоритмы и вызовы. Платформа и рейтинг доступны по следующим ссылкам: https://github.com/PKU-Alignment/ProgressGym и https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard соответственно.