Ежедневно отобранные исследовательские статьи по ИИ с переводами
После успеха парадигмы обучения в контексте в крупномасштабных моделях языка и компьютерного зрения недавно возникшее направление обучения с подкреплением в контексте переживает быстрый рост. Однако его развитие тормозится из-за отсутствия сложных бенчмарков, поскольку все эксперименты проводились в простых средах и на небольших наборах данных. Мы представляем XLand-100B, крупномасштабный набор данных для обучения с подкреплением в контексте на основе среды XLand-MiniGrid, как первый шаг к решению этой проблемы. Он содержит полные истории обучения для почти 30 000 различных задач, охватывающих 100 млрд переходов и 2,5 млрд эпизодов. Сбор набора данных занял 50 000 часов GPU, что выходит за рамки большинства академических лабораторий. Вместе с набором данных мы предоставляем утилиты для воспроизведения или дальнейшего расширения. С этим значительным усилием мы стремимся демократизировать исследования в быстрорастущем направлении обучения с подкреплением в контексте и предоставить прочное основание для дальнейшего масштабирования. Код является открытым и доступен по лицензии Apache 2.0 на https://github.com/dunno-lab/xland-minigrid-datasets.
Несмотря на невиданное успех моделей диффузии текста в изображение, управление количеством изображенных объектов с использованием текста удивительно сложно. Это важно для различных приложений, начиная от технических документов и детских книг, заканчивая иллюстрацией кулинарных рецептов. Генерация правильного количества объектов представляет собой фундаментальную сложность, поскольку генеративная модель должна сохранять чувство отдельной идентичности для каждого экземпляра объекта, даже если несколько объектов выглядят одинаково или перекрываются, и затем выполнять глобальные вычисления неявно во время генерации. Пока неизвестно, существуют ли такие представления. Для решения задачи генерации правильного количества объектов мы сначала выявляем особенности в модели диффузии, которые могут нести информацию об идентичности объекта. Затем мы используем их для разделения и подсчета экземпляров объектов во время процесса шумоподавления и обнаружения избыточной и недостаточной генерации. Мы исправляем последнее, обучая модель, которая предсказывает как форму, так и местоположение отсутствующего объекта на основе композиции существующих, и показываем, как это можно использовать для направления шумоподавления с правильным количеством объектов. Наш подход, CountGen, не зависит от внешнего источника для определения композиции объектов, а использует априорное знание из самой модели диффузии, создавая зависимые от запроса и зависимые от начального состояния композиции. Оценив на двух стандартных наборах данных, мы обнаружили, что CountGen значительно превосходит точность подсчета существующих базовых моделей.
Мы представляем новый бенчмарк, ChartMimic, направленный на оценку возможностей генерации кода на основе визуальных данных крупных мультимодальных моделей (LMMs). ChartMimic использует информационно насыщенные визуальные диаграммы и текстовые инструкции в качестве входных данных, требуя от LMMs генерацию соответствующего кода для визуализации диаграммы. ChartMimic включает в себя 1 000 триплетов (рисунок, инструкция, код), составленных вручную людьми, которые представляют аутентичные случаи использования диаграмм, найденные в научных статьях по различным областям (например, Физика, Информатика, Экономика и т. д.). Эти диаграммы охватывают 18 обычных типов и 4 продвинутых типа, разнообразие которых расширяется на 191 подкатегорию. Более того, мы предлагаем многоуровневые метрики оценки для автоматической и тщательной оценки выходного кода и отображенных диаграмм. В отличие от существующих бенчмарков генерации кода, ChartMimic акцентирует внимание на оценку способности LMMs гармонизировать смесь когнитивных способностей, включая визуальное понимание, генерацию кода и кросс-модальное мышление. Оценка 3 собственных моделей и 11 открытых моделей подчеркивает значительные вызовы, представленные ChartMimic. Даже продвинутые модели GPT-4V, Claude-3-opus достигают в среднем только 73,2 и 53,7 баллов соответственно, указывая на значительное пространство для улучшений. Мы ожидаем, что ChartMimic вдохновит разработку LMMs, продвигая стремление к искусственному общему интеллекту.
С быстрым развитием мультимодальных крупных языковых моделей (MLLMs) их оценка стала все более всесторонней. Однако понимание длинного мультимодального контента, как фундаментальное умение для прикладных приложений в реальном мире, остается недостаточно изученным. В данной работе мы представляем Needle In A Multimodal Haystack (MM-NIAH), первый бенчмарк, специально разработанный для систематической оценки способности существующих MLLMs понимать длинные мультимодальные документы. Наш бенчмарк включает три типа задач оценки: мультимодальный поиск, подсчет и рассуждение. В каждой задаче модель должна ответить на вопросы в соответствии с различной ключевой информацией, разбросанной по предоставленному мультимодальному документу. Оценивая ведущие MLLMs на MM-NIAH, мы замечаем, что у существующих моделей все еще есть значительное пространство для улучшения в этих задачах, особенно в оценке, сосредоточенной на зрении. Мы надеемся, что эта работа может предоставить платформу для дальнейших исследований по пониманию длинных мультимодальных документов и способствовать развитию MLLMs. Код и бенчмарк доступны по ссылке https://github.com/OpenGVLab/MM-NIAH.
В последние годы размеры входного контекста больших языковых моделей (LLM) значительно увеличились. Однако существующие методы оценки не успевают за этими изменениями, не обеспечивая всестороннюю оценку эффективности моделей в работе с длинными контекстами. Для устранения этого разрыва мы представляем бенчмарк BABILong, разработанный для проверки способности языковых моделей рассуждать по фактам, распределенным в чрезвычайно длинных документах. BABILong включает в себя разнообразный набор из 20 задач рассуждения, включая цепочки фактов, простую индукцию, дедукцию, подсчет, а также работу с списками/множествами. Эти задачи уже по себе вызывают трудности, а становятся еще более сложными, когда необходимые факты разбросаны по длинным естественным текстам. Наши оценки показывают, что популярные LLM эффективно используют лишь 10-20\% контекста, и их производительность резко снижается с увеличением сложности рассуждений. Среди альтернативных методов работы с контекстом методы генерации с извлечением показывают скромную точность 60\% при ответе на вопросы с одним фактом, независимо от длины контекста. Среди методов расширения контекста наивысшую производительность демонстрируют рекуррентные трансформеры памяти, позволяющие обрабатывать длины до 11 миллионов токенов. Бенчмарк BABILong расширяем до любой длины для поддержки оценки новых моделей с увеличенными возможностями, и мы предоставляем разбивки до 1 миллиона токенов.
Юго-Восточная Азия (ЮВА) - это регион, богатый лингвистическим разнообразием и культурным многообразием, с более чем 1 300 коренными языками и населением в 671 миллион человек. Однако существующие модели искусственного интеллекта страдают от значительного недостатка представления текстов, изображений и аудио наборов данных из ЮВА, что снижает качество моделей искусственного интеллекта для языков ЮВА. Оценка моделей для языков ЮВА является сложной из-за дефицита высококачественных наборов данных, усугубленного доминированием английских данных для обучения, вызывая опасения относительно потенциального культурного искажения. Для решения этих проблем мы представляем SEACrowd, совместную инициативу, которая объединяет обширный ресурсный центр, заполняющий пробел в ресурсах, предоставляя стандартизированные корпусы на почти 1 000 языках ЮВА в трех модальностях. Через наши бенчмарки SEACrowd мы оцениваем качество моделей искусственного интеллекта на 36 коренных языках в рамках 13 задач, предлагая ценные исследования текущего пейзажа искусственного интеллекта в ЮВА. Более того, мы предлагаем стратегии для облегчения дальнейших достижений в области искусственного интеллекта, максимизируя потенциальную полезность и равенство ресурсов для будущего искусственного интеллекта в ЮВА.
Данные с переплетенным изображением и текстом, состоящие из нескольких изображений и текстов, организованных в естественном формате документа, соответствуют парадигме представления данных в Интернете и тесно соответствуют человеческим привычкам чтения. Недавние исследования показали, что такие данные способствуют мультимодальному контекстному обучению и поддерживают возможности крупных языковых моделей во время мультимодальной донастройки. Однако ограниченный масштаб и разнообразие текущих данных с переплетенным изображением и текстом ограничивают развитие крупных мультимодальных языковых моделей. В данной статье мы представляем OmniCorpus, набор данных с переплетенным изображением и текстом масштабом 10 миллиардов. С помощью эффективного движка данных мы фильтруем и извлекаем документы большого масштаба высокого качества, содержащие 8,6 миллиарда изображений и 1,696 триллиона токенов текста. По сравнению с аналогами (например, MMC4, OBELICS), наш набор данных 1) имеет масштаб в 15 раз больше, сохраняя при этом хорошее качество данных; 2) содержит более разнообразные источники, включая как англоязычные, так и неанглоязычные веб-сайты, а также веб-сайты с видео контентом; 3) более гибок, легко преобразуется из формата с переплетенным изображением и текстом в чистый текстовый корпус и пары изображение-текст. Проведя всесторонний анализ и эксперименты, мы подтверждаем качество, применимость и эффективность предложенного набора данных. Мы надеемся, что это может обеспечить прочное основание данных для будущих исследований мультимодальных моделей. Код и данные доступны по ссылке https://github.com/OpenGVLab/OmniCorpus.
Пользователи смартфонов часто перемещаются между несколькими приложениями (приложениями), чтобы выполнить задачи, такие как обмен контентом между платформами социальных медиа. Агенты автономной навигации графического пользовательского интерфейса (GUI) могут улучшить пользовательский опыт в области коммуникации, развлечений и продуктивности, оптимизируя рабочие процессы и уменьшая ручное вмешательство. Однако ранее созданные агенты GUI обучались на наборах данных, включающих простые задачи, которые можно выполнить в одном приложении, что приводило к низкой производительности в навигации между приложениями. Для решения этой проблемы мы представляем GUI Odyssey, обширный набор данных для обучения и оценки агентов навигации между приложениями. GUI Odyssey состоит из 7 735 эпизодов с 6 мобильных устройств, охватывающих 6 типов задач между приложениями, 201 приложение и 1,4K комбинаций приложений. Используя GUI Odyssey, мы разработали OdysseyAgent, мультимодального агента навигации между приложениями путем настройки модели Qwen-VL с модулем повторного выбора истории. Обширные эксперименты демонстрируют превосходство OdysseyAgent по точности по сравнению с существующими моделями. Например, OdysseyAgent превосходит настроенную модель Qwen-VL и нулевую модель GPT-4V на 1,44\% и 55,49\% точности в пределах домена, и на 2,29\% и 48,14\% точности вне домена в среднем. Набор данных и код будут опубликованы на https://github.com/OpenGVLab/GUI-Odyssey.
Недавно Glyph-ByT5 достиг высокой точности визуального воспроизведения текста на изображениях графического дизайна. Однако он все еще сосредоточен исключительно на английском языке и показывает относительно низкое качество визуальной привлекательности. В данной работе мы решаем эти две фундаментальные ограничения, представляя Glyph-ByT5-v2 и Glyph-SDXL-v2, которые не только поддерживают точное визуальное воспроизведение текста для 10 различных языков, но также достигают значительно лучшего эстетического качества. Для достижения этого мы вносим следующие вклады: (i) создание высококачественного многоязычного набора данных глиф-текст и графического дизайна, состоящего из более чем 1 миллиона пар глиф-текст и 10 миллионов пар изображение-текст графического дизайна на девяти других языках, (ii) создание многоязычного визуального параграфического бенчмарка, состоящего из 1 000 запросов, по 100 для каждого языка, для оценки многоязычной точности визуального написания, и (iii) использование последнего подхода к обучению с предпочтениями, осведомленного о шагах, для улучшения визуального эстетического качества. Совместно с использованием этих техник мы представляем мощный настраиваемый многоязычный текстовый кодер Glyph-ByT5-v2 и сильную модель генерации графического дизайна с хорошим эстетическим качеством, Glyph-SDXL-v2, которые могут поддерживать точное написание на 10 различных языках. Мы рассматриваем нашу работу как значительный прогресс, учитывая, что последние DALL-E3 и Ideogram 1.0 все еще испытывают трудности с многоязычной задачей визуального воспроизведения текста.
Недавно разработанные большие языковые модели (LLM), такие как ChatGPT, Claude и Llama, продемонстрировали впечатляющие способности, даже превосходя уровень человека в нескольких задачах. Несмотря на их успех, ресурсоемкие требования этих моделей, требующие значительной вычислительной мощности как для обучения, так и для вывода, ограничивают их применение до высокопроизводительных серверов. Кроме того, обширные вычислительные требования моделей часто приводят к увеличению задержки во времени ответа. С увеличением потребности в эффективной работе LLM на ЦПУ возникли исследования легких моделей, оптимизированных для вывода на ЦПУ. В данной работе мы представляем GEB-1.3B, легкую LLM, обученную на 550 миллиардах токенов на китайском и английском языках. Мы используем новые методики обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности модели. Кроме того, мы дообучаем модель, используя 10 миллионов образцов инструкционных данных для улучшения выравнивания. GEB-1.3B проявляет выдающуюся производительность на общих бенчмарках, таких как MMLU, C-Eval и CMMLU, превосходя сравнительные модели, такие как MindLLM-1.3B и TinyLLaMA-1.1B. Особенно стоит отметить, что версия FP32 GEB-1.3B достигает похвальных времен вывода на ЦПУ, идут постоянные усилия по дальнейшему увеличению скорости через передовые техники квантования. Выпуск GEB-1.3B в качестве открытой модели является значительным вкладом в развитие легких LLM, обещая способствовать дальнейшим исследованиям и инновациям в этой области.
Мы предлагаем решение без обучения и устойчивое к управлению движением камеры для моделей видеодиффузии на полках магазинов. В отличие от предыдущих работ, наш метод не требует никакого обучения с учителем на наборах данных с аннотациями камеры или самостоятельного обучения через аугментацию данных. Вместо этого его можно просто подключить и использовать с большинством предварительно обученных моделей видеодиффузии и создавать видео с управляемой камерой с помощью одного изображения или текстового запроса в качестве ввода. Вдохновением для нашей работы послужило предположение о том, что промежуточные латенты хранят информацию о компоновке, которая приводит к созданию результатов, и поэтому перестановка шумных пикселей в них также приведет к перераспределению содержимого вывода. Поскольку движение камеры также можно рассматривать как вид пиксельной перестановки, вызванной изменением перспективы, видео могут быть переорганизованы в соответствии с определенным движением камеры, если их шумные латенты изменяются соответственно. Основываясь на этом, мы предлагаем наш метод CamTrol, который обеспечивает устойчивое управление камерой для моделей видеодиффузии. Это достигается двухэтапным процессом. Во-первых, мы моделируем перестановку компоновки изображения через явное движение камеры в трехмерном пространстве облака точек. Во-вторых, мы создаем видео с движением камеры, используя компоновку шумных латент, сформированных серией переставленных изображений. Обширные эксперименты продемонстрировали устойчивость нашего метода в управлении движением камеры в созданных видео. Более того, мы показываем, что наш метод способен производить впечатляющие результаты при создании видео с трехмерным вращением и динамическим содержанием. Страница проекта: https://lifedecoder.github.io/CamTrol/.
Разговорные LLM-модели функционируют как черные ящики, оставляя пользователей в недоумении относительно причин вывода, который они видят. Этот недостаток прозрачности потенциально проблематичен, особенно учитывая опасения относительно предвзятости и достоверности. Для решения этой проблемы мы представляем прототип конечного до конечного, объединяющий техники интерпретируемости с дизайном пользовательского опыта, который направлен на увеличение прозрачности чат-ботов. Мы начинаем с демонстрации доказательств того, что у известной LLM-модели с открытым исходным кодом есть "модель пользователя": анализируя внутреннее состояние системы, мы можем извлечь данные, связанные с возрастом пользователя, полом, уровнем образования и социоэкономическим статусом. Затем мы описываем дизайн панели управления, сопровождающей интерфейс чат-бота, отображающей эту модель пользователя в реальном времени. Панель управления также может использоваться для контроля модели пользователя и поведения системы. Наконец, мы обсуждаем исследование, в рамках которого пользователи общались с инструментированной системой. Наши результаты показывают, что пользователи оценили возможность видеть внутренние состояния, что помогло им выявить предвзятое поведение и увеличило их чувство контроля. Участники также сделали ценные предложения, указывающие на будущие направления как в дизайне, так и в исследованиях машинного обучения. Страница проекта и видеодемонстрация нашей системы TalkTuner доступны по ссылке https://bit.ly/talktuner-project-page
Автоматизация графического пользовательского интерфейса (GUI) обладает значительным потенциалом для повышения производительности человека путем помощи в выполнении компьютерных задач. Существующие формулировки задач в основном сосредоточены на простых задачах, которые могут быть указаны одним языковым инструктажем, таким как "Вставить новый слайд". В данной работе мы представляем VideoGUI, новый мультимодальный бенчмарк, разработанный для оценки GUI-ассистентов на визуально-ориентированных задачах GUI. Наш бенчмарк, полученный из высококачественных обучающих видеороликов в сети, фокусируется на задачах, связанных с профессиональным и новым программным обеспечением (например, Adobe Photoshop или Stable Diffusion WebUI) и сложными действиями (например, видеомонтаж). VideoGUI оценивает GUI-ассистентов через иерархический процесс, позволяя выявить конкретные уровни, на которых они могут потерпеть неудачу: (i) планирование на высоком уровне: восстановление процедурных подзадач из визуальных условий без языковых описаний; (ii) планирование на среднем уровне: генерация последовательностей точных действий на основе визуального состояния (т.е. снимка экрана) и целей; (iii) выполнение атомарных действий: выполнение конкретных действий, таких как точное нажатие на обозначенные элементы. Для каждого уровня мы разрабатываем метрики оценки по отдельным измерениям для предоставления четких сигналов, таких как индивидуальная производительность в нажатии, перетаскивании, наборе текста и прокрутке для выполнения атомарных действий. Наша оценка на VideoGUI показывает, что даже передовая многомодельная модель GPT4o показывает плохие результаты на визуально-ориентированных задачах GUI, особенно в планировании на высоком уровне.
Недавние достижения в технологии текст-видео (T2V), продемонстрированные моделями, такими как Gen2, Pika и Sora, значительно расширили ее применимость и популярность. Несмотря на эти успехи, оценка этих моделей представляет существенные трудности. Прежде всего, из-за ограничений, присущих автоматическим метрикам, ручная оценка часто считается более предпочтительным методом оценки генерации T2V. Однако существующие протоколы ручной оценки сталкиваются с проблемами воспроизводимости, надежности и практичности. Для решения этих проблем в данной статье представлен протокол Человеческой Оценки Текста-в-Видео (T2VHE), обширный и стандартизированный протокол для моделей T2V. Протокол T2VHE включает четко определенные метрики, тщательное обучение аннотаторов и эффективный динамический модуль оценки. Экспериментальные результаты показывают, что этот протокол не только обеспечивает аннотации высокого качества, но также может сократить затраты на оценку почти на 50%. Мы опубликуем в открытый доступ всю настройку протокола T2VHE, включая полный рабочий процесс протокола, детали динамического модуля оценки и код интерфейса аннотации. Это поможет сообществам создавать более сложные протоколы человеческой оценки.
Большие языковые модели могут запоминать и повторять свои обучающие данные, что создает риски для конфиденциальности и авторских прав. Для смягчения запоминания мы вводим тонкую модификацию цели обучения по следующему токену, которую мы называем потерей золотой рыбки. Во время обучения случайным образом выбирается подмножество токенов, исключаемых из вычисления потерь. Эти отброшенные токены не запоминаются моделью, что предотвращает дословное воспроизведение полной цепочки токенов из обучающего набора. Мы проводим обширные эксперименты по обучению моделей Llama-2 масштабом в миллиард токенов, как предварительно обученных, так и обученных с нуля, и демонстрируем значительное снижение возможности извлечения запоминаний с незначительным или отсутствующим влиянием на последующие бенчмарки.
Хотя модели диффузии показали впечатляющую производительность в генерации 2D изображений/видео, генерация текста в многозрительное видео на основе диффузии (T2MVid) остается малоисследованной. Новые вызовы, предъявляемые генерации T2MVid, заключаются в отсутствии обширных подписанных многозрительных видео и сложности моделирования такого многомерного распределения. В этой связи мы предлагаем новый диффузионный подход, который генерирует высококачественные многозрительные видео, сосредоточенные вокруг динамического 3D объекта из текста. Конкретно, мы разбиваем проблему T2MVid на составляющие пространства точек обзора и времени. Такая факторизация позволяет нам объединить и повторно использовать слои передовых предварительно обученных многозрительных моделей изображений и 2D видео диффузии для обеспечения согласованности многозрительных видео, а также временной согласованности для сгенерированных многозрительных видео, что существенно снижает стоимость обучения. Мы также вводим модули выравнивания для выравнивания латентных пространств слоев из предварительно обученных многозрительных и 2D видео диффузионных моделей, решая проблему несовместимости повторно используемых слоев, возникающую из-за разрыва между 2D и многозрительными данными. В поддержку этого и будущих исследований мы также предоставляем набор данных с подписанными многозрительными видео. Экспериментальные результаты демонстрируют, что наш метод генерирует высококачественные многозрительные видео, проявляющие яркие движения, временную согласованность и согласованность в многозрительном плане при различных текстовых подсказках.
Новая модель синтеза звука с нового ракурса (NVAS) направлена на создание бинаурального аудио в любой целевой точке обзора, учитывая моноаудио, излучаемое звуковым источником в 3D сцене. Существующие методы предлагают неявные модели на основе NeRF для использования визуальных подсказок в качестве условия для синтеза бинаурального аудио. Однако, помимо низкой эффективности, обусловленной сложным рендерингом NeRF, у всех этих методов ограниченная способность характеризовать всю среду сцены, такую как геометрия комнаты, свойства материалов и пространственное отношение между слушателем и источником звука. Для решения этих проблем мы предлагаем новую модель аудиовизуального гауссовского сплетения (AV-GS). Для получения условия, учитывающего материал и геометрию для синтеза звука, мы изучаем явное точечное представление сцены с параметром аудионаправления на локально инициализированных гауссовских точках, учитывая пространственное отношение от слушателя и источника звука. Для того чтобы сделать визуальную модель сцены аудиоадаптивной, мы предлагаем стратегию плотности и обрезки точек для оптимального распределения гауссовских точек с вкладом на каждую точку в распространении звука (например, требуется больше точек для поверхностей стен без текстуры, так как они влияют на отклонение пути звука). Обширные эксперименты подтверждают превосходство нашего AV-GS над существующими альтернативами на реальных наборах данных RWAS и SoundSpaces, основанных на симуляции.
В данной работе мы изучаем, как создать робототехническую систему, способную решать несколько задач трехмерной манипуляции по инструкциям на естественном языке. Для применения в промышленных и домашних областях такая система должна уметь изучать новые задачи по минимальному числу демонстраций и точно их решать. Предыдущие работы, такие как PerAct и RVT, изучали эту проблему, однако часто испытывали затруднения с задачами, требующими высокой точности. Мы исследуем, как сделать их более эффективными, точными и быстрыми. Используя комбинацию архитектурных и системных улучшений, мы предлагаем RVT-2, модель трехмерной манипуляции с множеством задач, которая обучается в 6 раз быстрее и работает в 2 раза быстрее на этапе вывода, чем ее предшественник RVT. RVT-2 достигает нового современного уровня на RLBench, улучшая показатель успешности с 65% до 82%. RVT-2 также эффективен в реальном мире, где он может изучать задачи, требующие высокой точности, например, захват и вставку штекеров, всего с 10 демонстрациями. Визуальные результаты, код и обученная модель предоставлены по ссылке: https://robotic-view-transformer-2.github.io/.
Достижение синтеза нового изображения высокого разрешения (HRNVS) из низкоразрешенных входных изображений является сложной задачей из-за отсутствия данных высокого разрешения. Предыдущие методы оптимизируют высокоразрешенное нейронное поле излучения (NeRF) из низкоразрешенных входных изображений, но страдают от медленной скорости визуализации. В данной работе мы основываем наш метод на трехмерной гауссовой проекции (3DGS) из-за его способности создавать изображения высокого качества с более быстрой скоростью визуализации. Для уменьшения нехватки данных для синтеза более высокого разрешения мы предлагаем использовать готовые 2D диффузионные априори, конденсируя знания 2D в 3D с помощью метода выборочного дистилляционного сэмплирования (SDS). Тем не менее, применение SDS непосредственно к гауссовскому трехмерному суперразрешению приводит к нежелательным и избыточным 3D гауссовским примитивам из-за случайности, внесенной генеративными априори. Для устранения этой проблемы мы представляем две простые, но эффективные техники для снижения стохастических помех, внесенных SDS. Конкретно, мы 1) сужаем диапазон временного шага диффузии в SDS с помощью стратегии отжига; 2) случайным образом удаляем избыточные гауссовские примитивы во время уплотнения. Обширные эксперименты показали, что наш предложенный GaussainSR способен достигать высококачественных результатов для HRNVS с использованием только низкоразрешенных входных данных как на синтетических, так и на реальных наборах данных. Страница проекта: https://chchnii.github.io/GaussianSR/
Эта обзорная статья предоставляет всесторонний обзор направлений исследований по крупным языковым моделям (LLM) в рамках индийских языков. Индийские языки - это языки, которые говорятся на Индийском субконтиненте, включая Индию, Пакистан, Бангладеш, Шри-Ланку, Непал и Бутан, среди прочих. Эти языки обладают богатым культурным и языковым наследием и говорятся более чем 1,5 миллиардами людей по всему миру. С огромным рыночным потенциалом и растущим спросом на приложения на основе обработки естественного языка (NLP) на разных языках, генеративные приложения для индийских языков представляют уникальные вызовы и возможности для исследований. Наша статья углубляется в недавние достижения в области генеративного моделирования для индийских языков, внося свой вклад с помощью таксономии направлений исследований, составляя таблицу из 84 недавних публикаций. Исследуемые в этой статье направления исследований включают разработку LLM, настройку существующих LLM, создание корпусов, тестирование и оценку, а также публикации по конкретным техникам, инструментам и приложениям. Мы обнаружили, что исследователи в своих публикациях акцентируют внимание на вызовах, связанных с ограниченной доступностью данных, отсутствием стандартизации и особыми лингвистическими сложностями индийских языков. Эта работа призвана служить ценным ресурсом для исследователей и практиков, работающих в области NLP, особенно тех, кто сосредоточен на индийских языках, и способствует развитию более точных и эффективных приложений LLM для этих языков.
Мы представляем MaskLID - простой, но эффективный метод идентификации языка с переключением кода (CS). MaskLID не требует обучения и разработан для дополнения текущих высокопроизводительных методов идентификации языка на уровне предложения. Методы идентификации языка на уровне предложения - это классификаторы, обученные на одноязычных текстах для предоставления одиночных меток, обычно используя слой softmax для преобразования оценок в вероятности. Однако в случаях, когда предложение составлено на двух языках L1 и L2, классификатор идентификации языка часто возвращает только доминирующую метку L1. Для решения этого ограничения MaskLID использует стратегию маскировки текстовых признаков, связанных с L1, позволяя классификатору идентификации языка классифицировать текст как L2 на следующем этапе. Этот метод использует сам классификатор идентификации языка для определения признаков, требующих маскировки, и не зависит от внешних ресурсов. В данной работе мы исследуем применение MaskLID для двух открытых методов идентификации языка (GlotLID и OpenLID), которые оба основаны на архитектуре FastText. Код и демонстрация доступны по ссылке https://github.com/cisnlp/MaskLID.