Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные универсальные методы сегментации демонстрируют высокие возможности в понимании изображений и видео на уровне пикселей. Однако они лишены способности к рассуждениям и не могут управляться с помощью текстовых инструкций. В отличие от этого, крупные мультимодальные модели видео-языка обладают мощными возможностями ведения разговоров на основе видео и рассуждениями, но лишены понимания на уровне пикселей и испытывают трудности при приеме визуальных подсказок для гибкого взаимодействия с пользователем. В данной статье предлагается OMG-LLaVA, новая и элегантная структура, объединяющая мощное понимание изображений на уровне пикселей с рассуждениями. Она способна принимать различные визуальные и текстовые подсказки для гибкого взаимодействия с пользователем. Конкретно, мы используем универсальный метод сегментации в качестве визуального кодера, интегрируя информацию об изображении, предпочтения восприятия и визуальные подсказки в визуальные токены, предоставляемые LLM. LLM отвечает за понимание текстовых инструкций пользователя и предоставление текстовых ответов и результатов сегментации на уровне пикселей на основе визуальной информации. Мы предлагаем встраивание предпочтений восприятия для лучшей интеграции предпочтений восприятия с изображениями. OMG-LLaVA достигает рассуждений и понимания на уровне изображения, объекта и пикселя в рамках одной модели, соответствуя или превосходя производительность специализированных методов на нескольких показателях. В отличие от использования LLM для соединения каждого специалиста, наша работа нацелена на обучение от начала до конца на одном кодировщике, одном декодере и одном LLM. Код и модель были опубликованы для дальнейших исследований.
Математическое мышление представляет существенное препятствие для моделей больших языковых моделей (LLM) из-за необходимости обширной и точной цепочки рассуждений для достижения точности. Обеспечение правильности каждого шага рассуждения критично. Для решения этой проблемы мы стремимся улучшить устойчивость и фактичность LLM, извлекая уроки из обратной связи человека. Однако прямая оптимизация предпочтений (DPO) показала ограниченные преимущества для длинных цепочек математических рассуждений, поскольку модели, использующие DPO, испытывают затруднения с выявлением детальных ошибок в неправильных ответах. Это ограничение обусловлено отсутствием тонкой процессуальной надзорной деятельности. Мы предлагаем простой, эффективный и экономичный метод, названный Step-DPO, который рассматривает отдельные шаги рассуждения как единицы для оптимизации предпочтений, а не оценивает ответы в целом. Кроме того, мы разработали конвейер построения данных для Step-DPO, позволяющий создавать высококачественный набор данных, содержащий 10 тыс. пар предпочтений по шагам. Мы также отмечаем, что в DPO самосозданные данные эффективнее данных, созданных людьми или GPT-4, из-за их несоответствия распределению. Наши результаты показывают, что всего 10 тыс. пар данных предпочтений и менее 500 шагов обучения Step-DPO могут привести к приросту точности на MATH на почти 3% для моделей с более чем 70 млрд параметров. Особенно стоит отметить, что Step-DPO, примененный к Qwen2-72B-Instruct, достигает результатов 70,8% и 94,0% на тестовых наборах MATH и GSM8K соответственно, превосходя ряд закрытых моделей, включая GPT-4-1106, Claude-3-Opus и Gemini-1.5-Pro. Наш код, данные и модели доступны по адресу https://github.com/dvlab-research/Step-DPO.
Мы обучаем модель для генерации изображений из мультимодальных подсказок, включающих в себя чередующийся текст и изображения, такие как "мужчина <изображение мужчины> и его собака <изображение собаки> в анимационном стиле <изображение мультяшного персонажа>". Мы создаем мультимодальный набор данных, извлекая семантически значимые обрезки изображений, соответствующие словам в подписях к изображениям синтетически созданных и общедоступных текстово-изображенческих данных. Наша модель, MUMU, состоит из кодировщика модели видео-языка с диффузионным декодером и обучается на одном узле GPU 8xH100. Несмотря на то, что обучена только на обрезках из одного и того же изображения, MUMU учится объединять входные данные из разных изображений в последовательный результат. Например, ввод реалистичного человека и мультяшного персонажа выведет одного и того же человека в стиле мультяшного персонажа, а ввод стоящего объекта и самоката выведет объект, катающегося на самокате. В результате наша модель обобщается на задачи, такие как перенос стиля и согласованность персонажей. Наши результаты показывают перспективы использования мультимодельных моделей в качестве универсальных контроллеров для генерации изображений.
Большие языковые модели (LLM) были задействованы в различных интеллектуальных образовательных задачах для помощи в обучении. В то время как первоначальные исследования сосредотачивались на независимых агентах, подкрепленных LLM, для конкретных образовательных задач, потенциал LLM в рамках мультиагентной коллаборативной среды для имитации класса с участием реальных пользователей остается неисследованным. В данной работе мы предлагаем SimClass, мультиагентную среду симуляции класса с участием пользователей. Мы определяем представительные роли класса и вводим новый механизм управления классом для автоматического обучения в классе, и проводим пользовательские эксперименты в двух курсах реального мира. Используя систему интерактивного анализа Фландерса и теоретические рамки Сообщества Исследования из образовательного анализа, мы демонстрируем, что LLM могут эффективно имитировать традиционные паттерны взаимодействия в классе, улучшая опыт пользователя. Мы также наблюдаем возникновение группового поведения среди агентов в SimClass, где агенты сотрудничают для создания живых взаимодействий в классах для улучшения процесса обучения пользователя. Мы надеемся, что эта работа станет отправной точкой для применения LLM-поддерживаемых мультиагентных систем в виртуальном обучении в классе.
Эта статья представляет Self-aware Knowledge Retrieval (SeaKR), новую адаптивную модель RAG, извлекающую самосознание неопределенности LLMs из их внутренних состояний. SeaKR активирует поиск, когда LLMs проявляют высокую самосознание неопределенности для генерации. Для эффективного интегрирования извлеченных фрагментов знаний SeaKR переупорядочивает их на основе самосознания неопределенности LLM, чтобы сохранить фрагмент, который снижает их неопределенность до максимума. Для облегчения решения сложных задач, требующих нескольких извлечений, SeaKR использует свое самосознание неопределенности для выбора различных стратегий рассуждения. Наши эксперименты как на сложных, так и на простых наборах данных для вопросов и ответов показывают, что SeaKR превосходит существующие адаптивные методы RAG. Мы выпустили наш код на https://github.com/THU-KEG/SeaKR.
Большие языковые модели (LLM) показали значительный потенциал как сопилоты в различных задачах. Локальное развертывание LLM на периферийных устройствах необходимо при работе с данными, требующими конфиденциальности, или задачах с чувствительностью к задержке. Вычислительные ограничения таких устройств делают непосредственное развертывание мощных крупномасштабных LLM непрактичным, что требует Дистилляции Знаний от крупномасштабных моделей к легковесным моделям. Было проведено много работ по извлечению разнообразных и качественных обучающих примеров из LLM, но мало внимания уделялось выравниванию содержания учебных материалов учителя на основе предпочтений студентов, аналогично "реактивному обучению" в педагогике. Таким образом, мы предлагаем ARTE, названный Aligning TeacheR with StudenT PreferencEs, фреймворк, который выравнивает модель учителя с предпочтениями студентов для создания индивидуальных обучающих примеров для Дистилляции Знаний. Конкретно, мы извлекаем черновые вопросы и обоснования от модели учителя, затем собираем предпочтения студентов по этим вопросам и обоснованиям, используя успеваемость студентов с контекстным обучением в качестве прокси, и в конечном итоге выравниваем модель учителя с предпочтениями студентов. В конце концов, мы повторяем первый шаг с выровненной моделью учителя для извлечения индивидуальных обучающих примеров для модели студента по целевой задаче. Обширные эксперименты на академических бенчмарках демонстрируют превосходство ARTE над существующими наборами данных по настройке инструкций, дистиллированными из мощных LLM. Более того, мы тщательно исследуем обобщение ARTE, включая обобщение донастроенных моделей студента по способности к рассуждению и обобщение выровненных моделей учителя для создания индивидуальных обучающих данных по задачам и студентам. В заключение, наш вклад заключается в предложении нового фреймворка для генерации индивидуальных обучающих примеров, демонстрации его эффективности в экспериментах и исследовании обобщения как моделей студента, так и выровненных моделей учителя в ARTE.
Загрязнение тестового набора, когда тестовые данные из стандартного набора попадают в обучающий набор новой модели, хорошо известное препятствие для справедливой оценки LLM и может быстро устареть стандартные наборы данных. Для смягчения этой проблемы многие недавние стандартные наборы данных получают новые запросы и оценки от человека или судей LLM; однако это может внести значительные искажения и потерпеть неудачу при оценке сложных вопросов. В данной работе мы представляем новый стандартный набор данных для LLM, разработанный таким образом, чтобы быть устойчивым как к загрязнению тестового набора, так и к недостаткам оценки LLM и человеческого crowdsourcing. Мы выпустили LiveBench, первый стандартный набор данных, который (1) содержит часто обновляемые вопросы из недавних источников информации, (2) автоматически оценивает ответы в соответствии с объективными истинными значениями и (3) содержит широкий спектр сложных задач, охватывающих математику, программирование, рассуждения, язык, следование инструкциям и анализ данных. Для достижения этой цели LiveBench содержит вопросы, основанные на недавно выпущенных математических соревнованиях, статьях arXiv, новостях и наборах данных, а также содержит более сложные, свободные от загрязнения версии задач из предыдущих стандартных наборов данных, таких как Big-Bench Hard, AMPS и IFEval. Мы оцениваем множество известных моделей с закрытым исходным кодом, а также десятки моделей с открытым исходным кодом размером от 0,5B до 110B. LiveBench сложен, с лучшими моделями, достигающими точности ниже 65%. Мы публикуем все вопросы, код и ответы модели. Вопросы будут добавляться и обновляться ежемесячно, и мы будем выпускать новые задачи и более сложные версии задач со временем, чтобы LiveBench мог различать способности LLM по мере их улучшения в будущем. Мы приветствуем вовлечение сообщества и сотрудничество для расширения задач и моделей стандартного набора данных.
Обучение для улучшения моделей студентов (например, дистилляция знаний) является широко изучаемой методологией в LLMs. Однако для людей обучение улучшает не только студентов, но и учителей. Мы спрашиваем: могут ли LLMs также учиться через обучение (LbT)? Если да, мы потенциально можем открыть возможность непрерывного развития моделей, не полагаясь исключительно на данные, созданные людьми, или более сильные модели. В этой статье мы представляем предварительное исследование этой амбициозной задачи. Мы показываем, что идеи LbT могут быть интегрированы в существующие конвейеры обучения/подсказок LLM и приводят к заметным улучшениям. Конкретно, мы разрабатываем три метода, каждый из которых имитирует один из трех уровней LbT у людей: наблюдение за обратной связью студентов, обучение на основе обратной связи и итеративное обучение, с целью улучшения точности ответов без обучения и улучшения врожденной способности моделей с помощью тонкой настройки. Полученные результаты обнадеживающи. Например, аналогично LbT у человека мы видим, что: (1) LbT может способствовать слабому-к-сильному обобщению: сильные модели могут улучшить себя, обучая другие слабые модели; (2) Разнообразие среди студентов может быть полезным: обучение нескольких студентов может быть лучше, чем обучение одного студента или самого учителя. Мы надеемся, что это раннее обещание может вдохновить будущие исследования в области LbT и более широко применить передовые техники в образовании для улучшения LLMs. Код доступен по ссылке https://github.com/imagination-research/lbt.
Атаки инверсии модели и вывода членства направлены на восстановление и проверку данных, на которых модель была обучена. Однако они не гарантируют нахождение всех обучающих образцов, поскольку не знают размер обучающего набора. В данной статье мы представляем новую задачу: восстановление размера набора данных, которая направлена на определение количества образцов, использованных для обучения модели, непосредственно из ее весов. Затем мы предлагаем DSiRe, метод восстановления количества изображений, использованных для дообучения модели, в обычном случае, когда для дообучения используется LoRA. Мы обнаружили, что как норма, так и спектр матриц LoRA тесно связаны с размером набора данных для дообучения; мы используем это открытие для предложения простого, но эффективного алгоритма прогнозирования. Для оценки восстановления размера набора данных весов LoRA мы разрабатываем и выпускаем новый бенчмарк, LoRA-WiSE, состоящий из более чем 25000 снимков весов из более чем 2000 разнообразных моделей, дообученных с использованием LoRA. Наш лучший классификатор может предсказать количество изображений для дообучения средней абсолютной ошибкой 0,36 изображения, подтверждая выполнимость этой атаки.
Разреженное внимание может эффективно смягчить значительные требования к памяти и пропускной способности крупных языковых моделей (LLM) в длинных контекстах. Существующие методы обычно используют равномерную маску разреженного внимания, применяя один и тот же разреженный шаблон для различных голов внимания и длин ввода. Однако такой равномерный подход не учитывает разнообразные образцы внимания, присущие LLM, игнорируя их различные компромиссы между точностью и задержкой. Для решения этой проблемы мы предлагаем Микс внимания (MoA), который автоматически настраивает различные конфигурации разреженного внимания для различных голов и слоев. MoA создает и исследует пространство поиска различных образцов внимания и их правил масштабирования относительно длины входной последовательности. Он профилирует модель, оценивает потенциальные конфигурации и определяет оптимальный план сжатия разреженного внимания. MoA адаптируется к различным размерам ввода, показывая, что некоторые головы внимания расширяют свое внимание, чтобы вместить более длинные последовательности, в то время как другие головы постоянно сосредотачиваются на фиксированных локальных контекстах. Эксперименты показывают, что MoA увеличивает эффективную длину контекста в 3,9 раза при том же среднем объеме внимания, увеличивая точность извлечения на 1,5-7,1 раза по сравнению с базовой моделью с равномерным вниманием для моделей Vicuna-7B, Vicuna-13B и Llama3-8B. Более того, MoA сокращает разрыв в возможностях между разреженными и плотными моделями, уменьшая максимальное относительное снижение производительности с 9% до 36% до значения в пределах 5% на двух длинных контекстных бенчмарках понимания. MoA достигает сокращения использования памяти GPU на 1,2-1,4 раза и увеличивает пропускную способность декодирования на 5,5-6,7 раз для плотных моделей 7B и 13B на одном GPU, с минимальным влиянием на производительность.
Программирование через примеры (PBE) нацелено на создание алгоритма на основе примеров ввода-вывода. Такие системы имеют как практическое, так и теоретическое значение: с точки зрения конечного пользователя они применяются миллионами людей, а с точки зрения искусственного интеллекта PBE соответствует очень общей форме малообучаемого индуктивного вывода. Учитывая успех крупных языковых моделей (LLM) в задачах генерации кода, мы здесь исследуем, насколько LLM можно считать "решившим" PBE. Мы проводим эксперименты в классических областях, таких как списки и строки, а также в необычной области графического программирования, плохо представленной в типовых предварительных данных. Мы обнаружили, что предварительно обученные модели неэффективны в PBE, но могут быть донастроены для значительно более высокой производительности, при условии, что тестовые задачи находятся в пределах распределения. Мы эмпирически анализируем, что приводит к успеху и неудачам этих моделей, и предпринимаем шаги к пониманию того, как достичь лучшей обобщаемости вне распределения. В целом эти результаты свидетельствуют о том, что LLM делают значительный прогресс в решении типичного набора задач PBE, потенциально увеличивая гибкость и применимость систем PBE, а также выявляя области, в которых LLM все еще не удовлетворяют.
Токенизаторы являются ключевыми для кодирования информации в больших языковых моделях, однако их развитие недавно замедлилось, и они содержат врожденные недостатки. Основные ограничения включают вычислительные издержки, неэффективное использование словаря и излишне большие встроенные и головные слои. Кроме того, их производительность смещена в пользу опорного корпуса, что приводит к снижению эффективности для недостаточно представленных языков. Для устранения этих проблем мы предлагаем T-FREE, который непосредственно встраивает слова через разреженные активационные шаблоны над тройками символов и не требует опорного корпуса. T-FREE врожденным образом использует морфологические сходства и позволяет сильно сжимать встроенные слои. В нашем исчерпывающем экспериментальном исследовании мы достигаем конкурентоспособной производительности на последующих этапах сокращения параметров более чем на 85% на этих слоях. Кроме того, T-FREE показывает значительные улучшения в межъязыковом обучении передачи.
Большие модели видео-языка (LVLM) галлюцинируют: определенные контекстные подсказки на изображении могут вызывать чрезмерно уверенное и неверное рассуждение языкового модуля о ненормальных или гипотетических объектах. Хотя было разработано несколько эталонов для изучения галлюцинаций в LVLM, они в основном опираются на созданные вручную крайние случаи, чьи сбои могут едва ли обобщаться, и их донастройка может подорвать их достоверность. Это побудило нас разработать первый автоматический подход к созданию эталонов, AUTOHALLUSION, который использует несколько основных стратегий для создания разнообразных примеров галлюцинаций. Он исследует языковые модули в LVLM для обнаружения контекстных подсказок и использует их для синтеза изображений путем: (1) добавления объектов, несоответствующих контекстным подсказкам; (2) для двух совпадающих объектов сохраняет один и исключает другой; или (3) удаляет объекты, тесно связанные с контекстными подсказками. Затем он генерирует вопросы на основе изображений, ответы на которые противоречат предыдущим выводам языкового модуля. Модель должна преодолеть контекстные предвзятости и отвлечения, чтобы добраться до правильных ответов, в то время как неверные или несогласованные ответы указывают на галлюцинации. AUTOHALLUSION позволяет нам создавать новые эталоны при минимальных затратах и тем самым преодолевать хрупкость созданных вручную эталонов. Он также раскрывает общие сценарии и причины сбоев, предоставляя ключевые идеи для обнаружения, предотвращения или управления галлюцинациями. Комплексные оценки лучших моделей LVLM, например, GPT-4V(ision), Gemini Pro Vision, Claude 3 и LLaVA-1.5, показывают успех в 97,7% и 98,7% индукции галлюцинаций на синтетических и реальных наборах данных AUTOHALLUSION, что открывает путь к долгой борьбе с галлюцинациями.
Графические пользовательские интерфейсы (GUI) играют центральную роль в нашем взаимодействии с цифровыми устройствами. Недавно были предприняты усилия по созданию моделей для различных задач понимания GUI. Однако эти усилия в значительной степени не учитывают важную задачу, связанную с GUI: чтение экрана на основе указанных пользователем точек, которую мы называем задачей "Точка-и-Чтение Экрана" (SPR). Эта задача в основном решается жесткими инструментами доступного чтения экрана, требующими новых моделей, основанных на прогрессе в Мультимодальных Больших Языковых Моделях (MLLMs). В данной статье мы предлагаем агента "Дерево-Линза" (ToL), использующего новый механизм опоры на ToL, для решения задачи SPR. На основе входных координат точки и соответствующего снимка GUI наш агент ToL строит Иерархическое Дерево Макета. Исходя из дерева, наш агент ToL не только понимает содержимое указанной области, но и артикулирует макет и пространственные отношения между элементами. Такая информация о макете критически важна для точного интерпретирования информации на экране, что отличает нашего агента ToL от других инструментов чтения экрана. Мы также тщательно оцениваем агента ToL по сравнению с другими базовыми моделями на вновь предложенном бенчмарке SPR, который включает GUI из мобильных, веб- и операционных систем. Наконец, мы тестируем агента ToL на задачах навигации по мобильным GUI, демонстрируя его полезность в выявлении неправильных действий в ходе траекторий выполнения агента. Код и данные: screen-point-and-read.github.io
Подход с извлечением информации для генерации (RAG) продемонстрировал эффективность в решении проблемы галлюцинаций у больших языковых моделей (LLM). Однако сложность выравнивания извлекателя с разнообразными предпочтениями знаний LLM неизбежно представляет собой вызов при разработке надежной системы RAG. Для решения этой проблемы мы предлагаем DPA-RAG, универсальную структуру, разработанную для выравнивания разнообразных предпочтений знаний в системах RAG. В частности, мы вначале вводим конструкцию предпочтительных знаний и интегрируем пять новых стратегий аугментации запросов для смягчения недостатка данных о предпочтениях. Основываясь на данных о предпочтениях, DPA-RAG достигает как внешнего, так и внутреннего выравнивания предпочтений: 1) Он совместно интегрирует способности к попарному, поэлементному и контрастному выравниванию предпочтений в переранкере, достигая внешнего выравнивания предпочтений между компонентами RAG. 2) Он дополнительно вводит предварительный этап выравнивания перед обычной супервизионной донастройкой (SFT), позволяя LLM неявно улавливать знания, соответствующие их предпочтениям в рассуждениях, достигая внутреннего выравнивания LLM. Экспериментальные результаты на четырех наборах данных с интенсивным использованием знаний в вопросно-ответных системах показывают, что DPA-RAG превосходит все базовые варианты и плавно интегрирует как черный ящик, так и открытые читатели LLM. Дополнительный качественный анализ и обсуждения также предоставляют эмпирическое руководство для создания надежных систем RAG. Наш код общедоступен по адресу https://github.com/dongguanting/DPA-RAG.
Под влиянием широкого распространения явления смешивания кода между египетским арабским и английским языками в последнее время данная статья исследует тонкости машинного перевода (MT) и систем автоматического распознавания речи (ASR), сосредотачиваясь на переводе смешанного кода между египетским арабским и английским на английский или египетский арабский. Наша цель - представить методологии, применяемые при разработке этих систем, используя большие языковые модели, такие как LLama и Gemma. В области ASR мы исследуем использование модели Whisper для распознавания смешанного кода между египетским арабским, подробно описывая наши экспериментальные процедуры, включая предварительную обработку данных и методики обучения. Через реализацию последовательной системы речь-текст, интегрирующей ASR с MT, мы стремимся преодолеть вызовы, возникшие из-за ограниченных ресурсов и уникальных характеристик диалекта египетского арабского. Оценка по установленным метрикам демонстрирует многообещающие результаты, с нашими методологиями, обеспечивающими значительное улучшение на 56% в переводе на английский язык по сравнению с передовыми технологиями и на 9.3% в переводе на арабский язык. Поскольку смешивание кодов глубоко укоренилось в устной речи, важно, чтобы системы ASR могли эффективно обрабатывать это явление. Эта способность необходима для обеспечения беспрепятственного взаимодействия в различных областях, включая деловые переговоры, культурные обмены и академический дискурс. Наши модели и код доступны как ресурсы с открытым исходным кодом. Код: http://github.com/ahmedheakl/arazn-llm, Модели: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
Увеличение зависимости от онлайн-платформ для найма в сочетании с принятием технологий искусственного интеллекта подчеркивает критическую необходимость эффективных методов классификации резюме. Однако вызовы, такие как небольшие наборы данных, отсутствие стандартизированных шаблонов резюме и проблемы конфиденциальности, затрудняют точность и эффективность существующих моделей классификации. В данной работе мы решаем эти проблемы, представляя комплексный подход к классификации резюме. Мы создали кураторский крупномасштабный набор данных из 13 389 резюме из различных источников и использовали большие языковые модели (LLM), такие как BERT и Gemma1.1 2B для классификации. Наши результаты демонстрируют значительное улучшение по сравнению с традиционными подходами машинного обучения, лучшая модель достигает точности верхнего уровня 92\% и точности верхних 5 уровней 97.5\%. Эти результаты подчеркивают важность качества набора данных и продвинутых архитектур моделей в повышении точности и надежности систем классификации резюме, тем самым продвигая область практик онлайн-найма.
Хотя множество работ оценили генеративную производительность языковых моделей (LMs) на задачах, требующих рассуждений о теории разума, исследования внутреннего представления моделей о психических состояниях остаются ограниченными. Недавние исследования использовали метод пробинга для демонстрации того, что LMs могут представлять убеждения себя и других. Однако эти утверждения сопровождаются ограниченной оценкой, что затрудняет оценку влияния конструкции модели и выбора методов обучения на представления психических состояний. Мы представляем обширный бенчмарк с различными типами LM с разными размерами моделей, подходами к тонкой настройке и конструкциями подсказок для изучения устойчивости представлений о психических состояниях и проблем запоминания в рамках проб. Наши результаты показывают, что качество внутренних представлений моделей убеждений других увеличивается с увеличением размера модели и, что более важно, с тонкой настройкой. Мы первые изучаем, как вариации подсказок влияют на производительность пробинга на задачах теории разума. Мы демонстрируем, что представления моделей чувствительны к вариациям подсказок, даже когда такие вариации должны быть полезными. Наконец, мы дополняем предыдущие эксперименты по редактированию активации на задачах теории разума и показываем, что можно улучшить производительность рассуждения моделей, направляя их активации без необходимости обучения какой-либо пробы.