HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

21 papers found

XLand-100B: Большой масштабный многозадачный набор данных для обучения с подкреплением в контексте
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13

ByAlexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

После успеха парадигмы обучения в контексте в крупномасштабных моделях языка и компьютерного зрения недавно возникшее направление обучения с подкреплением в контексте переживает быстрый рост. Однако его развитие тормозится из-за отсутствия сложных бенчмарков, поскольку все эксперименты проводились в простых средах и на небольших наборах данных. Мы представляем XLand-100B, крупномасштабный набор данных для обучения с подкреплением в контексте на основе среды XLand-MiniGrid, как первый шаг к решению этой проблемы. Он содержит полные истории обучения для почти 30 000 различных задач, охватывающих 100 млрд переходов и 2,5 млрд эпизодов. Сбор набора данных занял 50 000 часов GPU, что выходит за рамки большинства академических лабораторий. Вместе с набором данных мы предоставляем утилиты для воспроизведения или дальнейшего расширения. С этим значительным усилием мы стремимся демократизировать исследования в быстрорастущем направлении обучения с подкреплением в контексте и предоставить прочное основание для дальнейшего масштабирования. Код является открытым и доступен по лицензии Apache 2.0 на https://github.com/dunno-lab/xland-minigrid-datasets.

Сделать это важным: генерация изображений по тексту с точным количеством объектов
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14

ByLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

Несмотря на невиданное успех моделей диффузии текста в изображение, управление количеством изображенных объектов с использованием текста удивительно сложно. Это важно для различных приложений, начиная от технических документов и детских книг, заканчивая иллюстрацией кулинарных рецептов. Генерация правильного количества объектов представляет собой фундаментальную сложность, поскольку генеративная модель должна сохранять чувство отдельной идентичности для каждого экземпляра объекта, даже если несколько объектов выглядят одинаково или перекрываются, и затем выполнять глобальные вычисления неявно во время генерации. Пока неизвестно, существуют ли такие представления. Для решения задачи генерации правильного количества объектов мы сначала выявляем особенности в модели диффузии, которые могут нести информацию об идентичности объекта. Затем мы используем их для разделения и подсчета экземпляров объектов во время процесса шумоподавления и обнаружения избыточной и недостаточной генерации. Мы исправляем последнее, обучая модель, которая предсказывает как форму, так и местоположение отсутствующего объекта на основе композиции существующих, и показываем, как это можно использовать для направления шумоподавления с правильным количеством объектов. Наш подход, CountGen, не зависит от внешнего источника для определения композиции объектов, а использует априорное знание из самой модели диффузии, создавая зависимые от запроса и зависимые от начального состояния композиции. Оценив на двух стандартных наборах данных, мы обнаружили, что CountGen значительно превосходит точность подсчета существующих базовых моделей.

ChartMimic: Оценка способности к кросс-модальному рассуждению LMM через генерацию кода по графикам
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14

ByChufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

Мы представляем новый бенчмарк, ChartMimic, направленный на оценку возможностей генерации кода на основе визуальных данных крупных мультимодальных моделей (LMMs). ChartMimic использует информационно насыщенные визуальные диаграммы и текстовые инструкции в качестве входных данных, требуя от LMMs генерацию соответствующего кода для визуализации диаграммы. ChartMimic включает в себя 1 000 триплетов (рисунок, инструкция, код), составленных вручную людьми, которые представляют аутентичные случаи использования диаграмм, найденные в научных статьях по различным областям (например, Физика, Информатика, Экономика и т. д.). Эти диаграммы охватывают 18 обычных типов и 4 продвинутых типа, разнообразие которых расширяется на 191 подкатегорию. Более того, мы предлагаем многоуровневые метрики оценки для автоматической и тщательной оценки выходного кода и отображенных диаграмм. В отличие от существующих бенчмарков генерации кода, ChartMimic акцентирует внимание на оценку способности LMMs гармонизировать смесь когнитивных способностей, включая визуальное понимание, генерацию кода и кросс-модальное мышление. Оценка 3 собственных моделей и 11 открытых моделей подчеркивает значительные вызовы, представленные ChartMimic. Даже продвинутые модели GPT-4V, Claude-3-opus достигают в среднем только 73,2 и 53,7 баллов соответственно, указывая на значительное пространство для улучшений. Мы ожидаем, что ChartMimic вдохновит разработку LMMs, продвигая стремление к искусственному общему интеллекту.

Игла в мультимодальной стоге сена
Needle In A Multimodal Haystack

Jun 11

ByWeiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

С быстрым развитием мультимодальных крупных языковых моделей (MLLMs) их оценка стала все более всесторонней. Однако понимание длинного мультимодального контента, как фундаментальное умение для прикладных приложений в реальном мире, остается недостаточно изученным. В данной работе мы представляем Needle In A Multimodal Haystack (MM-NIAH), первый бенчмарк, специально разработанный для систематической оценки способности существующих MLLMs понимать длинные мультимодальные документы. Наш бенчмарк включает три типа задач оценки: мультимодальный поиск, подсчет и рассуждение. В каждой задаче модель должна ответить на вопросы в соответствии с различной ключевой информацией, разбросанной по предоставленному мультимодальному документу. Оценивая ведущие MLLMs на MM-NIAH, мы замечаем, что у существующих моделей все еще есть значительное пространство для улучшения в этих задачах, особенно в оценке, сосредоточенной на зрении. Мы надеемся, что эта работа может предоставить платформу для дальнейших исследований по пониманию длинных мультимодальных документов и способствовать развитию MLLMs. Код и бенчмарк доступны по ссылке https://github.com/OpenGVLab/MM-NIAH.

BABILong: Тестирование пределов LLM с длинным контекстом Рассуждения в стоге сена
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

В последние годы размеры входного контекста больших языковых моделей (LLM) значительно увеличились. Однако существующие методы оценки не успевают за этими изменениями, не обеспечивая всестороннюю оценку эффективности моделей в работе с длинными контекстами. Для устранения этого разрыва мы представляем бенчмарк BABILong, разработанный для проверки способности языковых моделей рассуждать по фактам, распределенным в чрезвычайно длинных документах. BABILong включает в себя разнообразный набор из 20 задач рассуждения, включая цепочки фактов, простую индукцию, дедукцию, подсчет, а также работу с списками/множествами. Эти задачи уже по себе вызывают трудности, а становятся еще более сложными, когда необходимые факты разбросаны по длинным естественным текстам. Наши оценки показывают, что популярные LLM эффективно используют лишь 10-20\% контекста, и их производительность резко снижается с увеличением сложности рассуждений. Среди альтернативных методов работы с контекстом методы генерации с извлечением показывают скромную точность 60\% при ответе на вопросы с одним фактом, независимо от длины контекста. Среди методов расширения контекста наивысшую производительность демонстрируют рекуррентные трансформеры памяти, позволяющие обрабатывать длины до 11 миллионов токенов. Бенчмарк BABILong расширяем до любой длины для поддержки оценки новых моделей с увеличенными возможностями, и мы предоставляем разбивки до 1 миллиона токенов.

SEACrowd: Многоязычный мультимодальный центр данных и набор тестов для языков Юго-Восточной Азии
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14

ByHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

Юго-Восточная Азия (ЮВА) - это регион, богатый лингвистическим разнообразием и культурным многообразием, с более чем 1 300 коренными языками и населением в 671 миллион человек. Однако существующие модели искусственного интеллекта страдают от значительного недостатка представления текстов, изображений и аудио наборов данных из ЮВА, что снижает качество моделей искусственного интеллекта для языков ЮВА. Оценка моделей для языков ЮВА является сложной из-за дефицита высококачественных наборов данных, усугубленного доминированием английских данных для обучения, вызывая опасения относительно потенциального культурного искажения. Для решения этих проблем мы представляем SEACrowd, совместную инициативу, которая объединяет обширный ресурсный центр, заполняющий пробел в ресурсах, предоставляя стандартизированные корпусы на почти 1 000 языках ЮВА в трех модальностях. Через наши бенчмарки SEACrowd мы оцениваем качество моделей искусственного интеллекта на 36 коренных языках в рамках 13 задач, предлагая ценные исследования текущего пейзажа искусственного интеллекта в ЮВА. Более того, мы предлагаем стратегии для облегчения дальнейших достижений в области искусственного интеллекта, максимизируя потенциальную полезность и равенство ресурсов для будущего искусственного интеллекта в ЮВА.

OmniCorpus: Объединенный мультимодальный корпус изображений уровня 10 миллиардов, чередующихся с текстом.
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12

ByQingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

Данные с переплетенным изображением и текстом, состоящие из нескольких изображений и текстов, организованных в естественном формате документа, соответствуют парадигме представления данных в Интернете и тесно соответствуют человеческим привычкам чтения. Недавние исследования показали, что такие данные способствуют мультимодальному контекстному обучению и поддерживают возможности крупных языковых моделей во время мультимодальной донастройки. Однако ограниченный масштаб и разнообразие текущих данных с переплетенным изображением и текстом ограничивают развитие крупных мультимодальных языковых моделей. В данной статье мы представляем OmniCorpus, набор данных с переплетенным изображением и текстом масштабом 10 миллиардов. С помощью эффективного движка данных мы фильтруем и извлекаем документы большого масштаба высокого качества, содержащие 8,6 миллиарда изображений и 1,696 триллиона токенов текста. По сравнению с аналогами (например, MMC4, OBELICS), наш набор данных 1) имеет масштаб в 15 раз больше, сохраняя при этом хорошее качество данных; 2) содержит более разнообразные источники, включая как англоязычные, так и неанглоязычные веб-сайты, а также веб-сайты с видео контентом; 3) более гибок, легко преобразуется из формата с переплетенным изображением и текстом в чистый текстовый корпус и пары изображение-текст. Проведя всесторонний анализ и эксперименты, мы подтверждаем качество, применимость и эффективность предложенного набора данных. Мы надеемся, что это может обеспечить прочное основание данных для будущих исследований мультимодальных моделей. Код и данные доступны по ссылке https://github.com/OpenGVLab/OmniCorpus.

GUI Odyssey: Обширный набор данных для навигации по графическому интерфейсу пользователя между приложениями на мобильных устройствах
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12

ByQuanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

Пользователи смартфонов часто перемещаются между несколькими приложениями (приложениями), чтобы выполнить задачи, такие как обмен контентом между платформами социальных медиа. Агенты автономной навигации графического пользовательского интерфейса (GUI) могут улучшить пользовательский опыт в области коммуникации, развлечений и продуктивности, оптимизируя рабочие процессы и уменьшая ручное вмешательство. Однако ранее созданные агенты GUI обучались на наборах данных, включающих простые задачи, которые можно выполнить в одном приложении, что приводило к низкой производительности в навигации между приложениями. Для решения этой проблемы мы представляем GUI Odyssey, обширный набор данных для обучения и оценки агентов навигации между приложениями. GUI Odyssey состоит из 7 735 эпизодов с 6 мобильных устройств, охватывающих 6 типов задач между приложениями, 201 приложение и 1,4K комбинаций приложений. Используя GUI Odyssey, мы разработали OdysseyAgent, мультимодального агента навигации между приложениями путем настройки модели Qwen-VL с модулем повторного выбора истории. Обширные эксперименты демонстрируют превосходство OdysseyAgent по точности по сравнению с существующими моделями. Например, OdysseyAgent превосходит настроенную модель Qwen-VL и нулевую модель GPT-4V на 1,44\% и 55,49\% точности в пределах домена, и на 2,29\% и 48,14\% точности вне домена в среднем. Набор данных и код будут опубликованы на https://github.com/OpenGVLab/GUI-Odyssey.

Glyph-ByT5-v2: Надежная эстетическая базовая линия для точного многоязычного визуального отображения текста.
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14

ByZeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

Недавно Glyph-ByT5 достиг высокой точности визуального воспроизведения текста на изображениях графического дизайна. Однако он все еще сосредоточен исключительно на английском языке и показывает относительно низкое качество визуальной привлекательности. В данной работе мы решаем эти две фундаментальные ограничения, представляя Glyph-ByT5-v2 и Glyph-SDXL-v2, которые не только поддерживают точное визуальное воспроизведение текста для 10 различных языков, но также достигают значительно лучшего эстетического качества. Для достижения этого мы вносим следующие вклады: (i) создание высококачественного многоязычного набора данных глиф-текст и графического дизайна, состоящего из более чем 1 миллиона пар глиф-текст и 10 миллионов пар изображение-текст графического дизайна на девяти других языках, (ii) создание многоязычного визуального параграфического бенчмарка, состоящего из 1 000 запросов, по 100 для каждого языка, для оценки многоязычной точности визуального написания, и (iii) использование последнего подхода к обучению с предпочтениями, осведомленного о шагах, для улучшения визуального эстетического качества. Совместно с использованием этих техник мы представляем мощный настраиваемый многоязычный текстовый кодер Glyph-ByT5-v2 и сильную модель генерации графического дизайна с хорошим эстетическим качеством, Glyph-SDXL-v2, которые могут поддерживать точное написание на 10 различных языках. Мы рассматриваем нашу работу как значительный прогресс, учитывая, что последние DALL-E3 и Ideogram 1.0 все еще испытывают трудности с многоязычной задачей визуального воспроизведения текста.

GEB-1.3B: Открытая легкая крупномасштабная языковая модель
GEB-1.3B: Open Lightweight Large Language Model

Jun 14

ByJie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

Недавно разработанные большие языковые модели (LLM), такие как ChatGPT, Claude и Llama, продемонстрировали впечатляющие способности, даже превосходя уровень человека в нескольких задачах. Несмотря на их успех, ресурсоемкие требования этих моделей, требующие значительной вычислительной мощности как для обучения, так и для вывода, ограничивают их применение до высокопроизводительных серверов. Кроме того, обширные вычислительные требования моделей часто приводят к увеличению задержки во времени ответа. С увеличением потребности в эффективной работе LLM на ЦПУ возникли исследования легких моделей, оптимизированных для вывода на ЦПУ. В данной работе мы представляем GEB-1.3B, легкую LLM, обученную на 550 миллиардах токенов на китайском и английском языках. Мы используем новые методики обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности модели. Кроме того, мы дообучаем модель, используя 10 миллионов образцов инструкционных данных для улучшения выравнивания. GEB-1.3B проявляет выдающуюся производительность на общих бенчмарках, таких как MMLU, C-Eval и CMMLU, превосходя сравнительные модели, такие как MindLLM-1.3B и TinyLLaMA-1.1B. Особенно стоит отметить, что версия FP32 GEB-1.3B достигает похвальных времен вывода на ЦПУ, идут постоянные усилия по дальнейшему увеличению скорости через передовые техники квантования. Выпуск GEB-1.3B в качестве открытой модели является значительным вкладом в развитие легких LLM, обещая способствовать дальнейшим исследованиям и инновациям в этой области.

Управление камерой без обучения для генерации видео
Training-free Camera Control for Video Generation

Jun 14

ByChen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

Мы предлагаем решение без обучения и устойчивое к управлению движением камеры для моделей видеодиффузии на полках магазинов. В отличие от предыдущих работ, наш метод не требует никакого обучения с учителем на наборах данных с аннотациями камеры или самостоятельного обучения через аугментацию данных. Вместо этого его можно просто подключить и использовать с большинством предварительно обученных моделей видеодиффузии и создавать видео с управляемой камерой с помощью одного изображения или текстового запроса в качестве ввода. Вдохновением для нашей работы послужило предположение о том, что промежуточные латенты хранят информацию о компоновке, которая приводит к созданию результатов, и поэтому перестановка шумных пикселей в них также приведет к перераспределению содержимого вывода. Поскольку движение камеры также можно рассматривать как вид пиксельной перестановки, вызванной изменением перспективы, видео могут быть переорганизованы в соответствии с определенным движением камеры, если их шумные латенты изменяются соответственно. Основываясь на этом, мы предлагаем наш метод CamTrol, который обеспечивает устойчивое управление камерой для моделей видеодиффузии. Это достигается двухэтапным процессом. Во-первых, мы моделируем перестановку компоновки изображения через явное движение камеры в трехмерном пространстве облака точек. Во-вторых, мы создаем видео с движением камеры, используя компоновку шумных латент, сформированных серией переставленных изображений. Обширные эксперименты продемонстрировали устойчивость нашего метода в управлении движением камеры в созданных видео. Более того, мы показываем, что наш метод способен производить впечатляющие результаты при создании видео с трехмерным вращением и динамическим содержанием. Страница проекта: https://lifedecoder.github.io/CamTrol/.

Разработка панели управления для обеспечения прозрачности и контроля над разговорным искусственным интеллектом.
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12

ByYida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

Разговорные LLM-модели функционируют как черные ящики, оставляя пользователей в недоумении относительно причин вывода, который они видят. Этот недостаток прозрачности потенциально проблематичен, особенно учитывая опасения относительно предвзятости и достоверности. Для решения этой проблемы мы представляем прототип конечного до конечного, объединяющий техники интерпретируемости с дизайном пользовательского опыта, который направлен на увеличение прозрачности чат-ботов. Мы начинаем с демонстрации доказательств того, что у известной LLM-модели с открытым исходным кодом есть "модель пользователя": анализируя внутреннее состояние системы, мы можем извлечь данные, связанные с возрастом пользователя, полом, уровнем образования и социоэкономическим статусом. Затем мы описываем дизайн панели управления, сопровождающей интерфейс чат-бота, отображающей эту модель пользователя в реальном времени. Панель управления также может использоваться для контроля модели пользователя и поведения системы. Наконец, мы обсуждаем исследование, в рамках которого пользователи общались с инструментированной системой. Наши результаты показывают, что пользователи оценили возможность видеть внутренние состояния, что помогло им выявить предвзятое поведение и увеличило их чувство контроля. Участники также сделали ценные предложения, указывающие на будущие направления как в дизайне, так и в исследованиях машинного обучения. Страница проекта и видеодемонстрация нашей системы TalkTuner доступны по ссылке https://bit.ly/talktuner-project-page

VideoGUI: Бенчмарк для автоматизации графического интерфейса пользователя из обучающих видеороликов
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

Автоматизация графического пользовательского интерфейса (GUI) обладает значительным потенциалом для повышения производительности человека путем помощи в выполнении компьютерных задач. Существующие формулировки задач в основном сосредоточены на простых задачах, которые могут быть указаны одним языковым инструктажем, таким как "Вставить новый слайд". В данной работе мы представляем VideoGUI, новый мультимодальный бенчмарк, разработанный для оценки GUI-ассистентов на визуально-ориентированных задачах GUI. Наш бенчмарк, полученный из высококачественных обучающих видеороликов в сети, фокусируется на задачах, связанных с профессиональным и новым программным обеспечением (например, Adobe Photoshop или Stable Diffusion WebUI) и сложными действиями (например, видеомонтаж). VideoGUI оценивает GUI-ассистентов через иерархический процесс, позволяя выявить конкретные уровни, на которых они могут потерпеть неудачу: (i) планирование на высоком уровне: восстановление процедурных подзадач из визуальных условий без языковых описаний; (ii) планирование на среднем уровне: генерация последовательностей точных действий на основе визуального состояния (т.е. снимка экрана) и целей; (iii) выполнение атомарных действий: выполнение конкретных действий, таких как точное нажатие на обозначенные элементы. Для каждого уровня мы разрабатываем метрики оценки по отдельным измерениям для предоставления четких сигналов, таких как индивидуальная производительность в нажатии, перетаскивании, наборе текста и прокрутке для выполнения атомарных действий. Наша оценка на VideoGUI показывает, что даже передовая многомодельная модель GPT4o показывает плохие результаты на визуально-ориентированных задачах GUI, особенно в планировании на высоком уровне.

Переосмысление протокола оценки человека для моделей текст-видео: повышение надежности, воспроизводимости и практичности.
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13

ByTianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

Недавние достижения в технологии текст-видео (T2V), продемонстрированные моделями, такими как Gen2, Pika и Sora, значительно расширили ее применимость и популярность. Несмотря на эти успехи, оценка этих моделей представляет существенные трудности. Прежде всего, из-за ограничений, присущих автоматическим метрикам, ручная оценка часто считается более предпочтительным методом оценки генерации T2V. Однако существующие протоколы ручной оценки сталкиваются с проблемами воспроизводимости, надежности и практичности. Для решения этих проблем в данной статье представлен протокол Человеческой Оценки Текста-в-Видео (T2VHE), обширный и стандартизированный протокол для моделей T2V. Протокол T2VHE включает четко определенные метрики, тщательное обучение аннотаторов и эффективный динамический модуль оценки. Экспериментальные результаты показывают, что этот протокол не только обеспечивает аннотации высокого качества, но также может сократить затраты на оценку почти на 50%. Мы опубликуем в открытый доступ всю настройку протокола T2VHE, включая полный рабочий процесс протокола, детали динамического модуля оценки и код интерфейса аннотации. Это поможет сообществам создавать более сложные протоколы человеческой оценки.

Будь как золотая рыбка, не запоминай! Смягчение запоминания в генеративных языковых моделях.
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14

ByAbhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

Большие языковые модели могут запоминать и повторять свои обучающие данные, что создает риски для конфиденциальности и авторских прав. Для смягчения запоминания мы вводим тонкую модификацию цели обучения по следующему токену, которую мы называем потерей золотой рыбки. Во время обучения случайным образом выбирается подмножество токенов, исключаемых из вычисления потерь. Эти отброшенные токены не запоминаются моделью, что предотвращает дословное воспроизведение полной цепочки токенов из обучающего набора. Мы проводим обширные эксперименты по обучению моделей Llama-2 масштабом в миллиард токенов, как предварительно обученных, так и обученных с нуля, и демонстрируем значительное снижение возможности извлечения запоминаний с незначительным или отсутствующим влиянием на последующие бенчмарки.

Vivid-ZOO: Генерация многопланового видео с моделью диффузии
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12

ByBing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

Хотя модели диффузии показали впечатляющую производительность в генерации 2D изображений/видео, генерация текста в многозрительное видео на основе диффузии (T2MVid) остается малоисследованной. Новые вызовы, предъявляемые генерации T2MVid, заключаются в отсутствии обширных подписанных многозрительных видео и сложности моделирования такого многомерного распределения. В этой связи мы предлагаем новый диффузионный подход, который генерирует высококачественные многозрительные видео, сосредоточенные вокруг динамического 3D объекта из текста. Конкретно, мы разбиваем проблему T2MVid на составляющие пространства точек обзора и времени. Такая факторизация позволяет нам объединить и повторно использовать слои передовых предварительно обученных многозрительных моделей изображений и 2D видео диффузии для обеспечения согласованности многозрительных видео, а также временной согласованности для сгенерированных многозрительных видео, что существенно снижает стоимость обучения. Мы также вводим модули выравнивания для выравнивания латентных пространств слоев из предварительно обученных многозрительных и 2D видео диффузионных моделей, решая проблему несовместимости повторно используемых слоев, возникающую из-за разрыва между 2D и многозрительными данными. В поддержку этого и будущих исследований мы также предоставляем набор данных с подписанными многозрительными видео. Экспериментальные результаты демонстрируют, что наш метод генерирует высококачественные многозрительные видео, проявляющие яркие движения, временную согласованность и согласованность в многозрительном плане при различных текстовых подсказках.

AV-GS: Обучение материалу и геометрически осведомленные априорные знания для синтеза нового вида звуковой акустики
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13

BySwapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

Новая модель синтеза звука с нового ракурса (NVAS) направлена на создание бинаурального аудио в любой целевой точке обзора, учитывая моноаудио, излучаемое звуковым источником в 3D сцене. Существующие методы предлагают неявные модели на основе NeRF для использования визуальных подсказок в качестве условия для синтеза бинаурального аудио. Однако, помимо низкой эффективности, обусловленной сложным рендерингом NeRF, у всех этих методов ограниченная способность характеризовать всю среду сцены, такую как геометрия комнаты, свойства материалов и пространственное отношение между слушателем и источником звука. Для решения этих проблем мы предлагаем новую модель аудиовизуального гауссовского сплетения (AV-GS). Для получения условия, учитывающего материал и геометрию для синтеза звука, мы изучаем явное точечное представление сцены с параметром аудионаправления на локально инициализированных гауссовских точках, учитывая пространственное отношение от слушателя и источника звука. Для того чтобы сделать визуальную модель сцены аудиоадаптивной, мы предлагаем стратегию плотности и обрезки точек для оптимального распределения гауссовских точек с вкладом на каждую точку в распространении звука (например, требуется больше точек для поверхностей стен без текстуры, так как они влияют на отклонение пути звука). Обширные эксперименты подтверждают превосходство нашего AV-GS над существующими альтернативами на реальных наборах данных RWAS и SoundSpaces, основанных на симуляции.

RVT-2: Обучение точной манипуляции по нескольким демонстрациям
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12

ByAnkit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

В данной работе мы изучаем, как создать робототехническую систему, способную решать несколько задач трехмерной манипуляции по инструкциям на естественном языке. Для применения в промышленных и домашних областях такая система должна уметь изучать новые задачи по минимальному числу демонстраций и точно их решать. Предыдущие работы, такие как PerAct и RVT, изучали эту проблему, однако часто испытывали затруднения с задачами, требующими высокой точности. Мы исследуем, как сделать их более эффективными, точными и быстрыми. Используя комбинацию архитектурных и системных улучшений, мы предлагаем RVT-2, модель трехмерной манипуляции с множеством задач, которая обучается в 6 раз быстрее и работает в 2 раза быстрее на этапе вывода, чем ее предшественник RVT. RVT-2 достигает нового современного уровня на RLBench, улучшая показатель успешности с 65% до 82%. RVT-2 также эффективен в реальном мире, где он может изучать задачи, требующие высокой точности, например, захват и вставку штекеров, всего с 10 демонстрациями. Визуальные результаты, код и обученная модель предоставлены по ссылке: https://robotic-view-transformer-2.github.io/.

GaussianSR: 3D Гауссово суперразрешение с 2D диффузными априорными данными
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14

ByXiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

Достижение синтеза нового изображения высокого разрешения (HRNVS) из низкоразрешенных входных изображений является сложной задачей из-за отсутствия данных высокого разрешения. Предыдущие методы оптимизируют высокоразрешенное нейронное поле излучения (NeRF) из низкоразрешенных входных изображений, но страдают от медленной скорости визуализации. В данной работе мы основываем наш метод на трехмерной гауссовой проекции (3DGS) из-за его способности создавать изображения высокого качества с более быстрой скоростью визуализации. Для уменьшения нехватки данных для синтеза более высокого разрешения мы предлагаем использовать готовые 2D диффузионные априори, конденсируя знания 2D в 3D с помощью метода выборочного дистилляционного сэмплирования (SDS). Тем не менее, применение SDS непосредственно к гауссовскому трехмерному суперразрешению приводит к нежелательным и избыточным 3D гауссовским примитивам из-за случайности, внесенной генеративными априори. Для устранения этой проблемы мы представляем две простые, но эффективные техники для снижения стохастических помех, внесенных SDS. Конкретно, мы 1) сужаем диапазон временного шага диффузии в SDS с помощью стратегии отжига; 2) случайным образом удаляем избыточные гауссовские примитивы во время уплотнения. Обширные эксперименты показали, что наш предложенный GaussainSR способен достигать высококачественных результатов для HRNVS с использованием только низкоразрешенных входных данных как на синтетических, так и на реальных наборах данных. Страница проекта: https://chchnii.github.io/GaussianSR/

Расшифровка разнообразия: обзор индийского исследовательского ландшафта в области искусственного интеллекта.
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13

BySankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

Эта обзорная статья предоставляет всесторонний обзор направлений исследований по крупным языковым моделям (LLM) в рамках индийских языков. Индийские языки - это языки, которые говорятся на Индийском субконтиненте, включая Индию, Пакистан, Бангладеш, Шри-Ланку, Непал и Бутан, среди прочих. Эти языки обладают богатым культурным и языковым наследием и говорятся более чем 1,5 миллиардами людей по всему миру. С огромным рыночным потенциалом и растущим спросом на приложения на основе обработки естественного языка (NLP) на разных языках, генеративные приложения для индийских языков представляют уникальные вызовы и возможности для исследований. Наша статья углубляется в недавние достижения в области генеративного моделирования для индийских языков, внося свой вклад с помощью таксономии направлений исследований, составляя таблицу из 84 недавних публикаций. Исследуемые в этой статье направления исследований включают разработку LLM, настройку существующих LLM, создание корпусов, тестирование и оценку, а также публикации по конкретным техникам, инструментам и приложениям. Мы обнаружили, что исследователи в своих публикациях акцентируют внимание на вызовах, связанных с ограниченной доступностью данных, отсутствием стандартизации и особыми лингвистическими сложностями индийских языков. Эта работа призвана служить ценным ресурсом для исследователей и практиков, работающих в области NLP, особенно тех, кто сосредоточен на индийских языках, и способствует развитию более точных и эффективных приложений LLM для этих языков.

Маскирование: идентификация смешанного языка с переключением кода через итеративное маскирование
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Мы представляем MaskLID - простой, но эффективный метод идентификации языка с переключением кода (CS). MaskLID не требует обучения и разработан для дополнения текущих высокопроизводительных методов идентификации языка на уровне предложения. Методы идентификации языка на уровне предложения - это классификаторы, обученные на одноязычных текстах для предоставления одиночных меток, обычно используя слой softmax для преобразования оценок в вероятности. Однако в случаях, когда предложение составлено на двух языках L1 и L2, классификатор идентификации языка часто возвращает только доминирующую метку L1. Для решения этого ограничения MaskLID использует стратегию маскировки текстовых признаков, связанных с L1, позволяя классификатору идентификации языка классифицировать текст как L2 на следующем этапе. Этот метод использует сам классификатор идентификации языка для определения признаков, требующих маскировки, и не зависит от внешних ресурсов. В данной работе мы исследуем применение MaskLID для двух открытых методов идентификации языка (GlotLID и OpenLID), которые оба основаны на архитектуре FastText. Код и демонстрация доступны по ссылке https://github.com/cisnlp/MaskLID.