Ежедневно отобранные исследовательские статьи по ИИ с переводами
Представляем Qwen2.5-VL, новейшую флагманскую модель серии Qwen для обработки визуальных и языковых данных, которая демонстрирует значительные улучшения как в базовых возможностях, так и в инновационных функциях. Qwen2.5-VL совершает существенный прорыв в понимании и взаимодействии с миром благодаря улучшенному визуальному распознаванию, точной локализации объектов, надежному анализу документов и пониманию длинных видео. Одной из ключевых особенностей Qwen2.5-VL является способность точно локализовать объекты с использованием ограничивающих рамок или точек. Модель обеспечивает надежное извлечение структурированных данных из счетов, форм и таблиц, а также детальный анализ графиков, диаграмм и макетов. Для обработки сложных входных данных Qwen2.5-VL внедряет динамическое разрешение и кодирование абсолютного времени, что позволяет ей обрабатывать изображения различных размеров и видео продолжительностью до нескольких часов с локализацией событий на уровне секунд. Это позволяет модели естественно воспринимать пространственные масштабы и временные динамики без использования традиционных методов нормализации. Обучая Vision Transformer (ViT) с динамическим разрешением с нуля и внедряя Window Attention, мы снижаем вычислительные затраты, сохраняя при этом исходное разрешение. В результате Qwen2.5-VL превосходно справляется не только с пониманием статических изображений и документов, но и выступает в роли интерактивного визуального агента, способного к рассуждениям, использованию инструментов и выполнению задач в реальных сценариях, таких как управление компьютерами и мобильными устройствами. Qwen2.5-VL доступна в трех размерах, охватывая различные варианты использования — от edge AI до высокопроизводительных вычислений. Флагманская модель Qwen2.5-VL-72B соответствует современным моделям, таким как GPT-4o и Claude 3.5 Sonnet, особенно выделяясь в понимании документов и диаграмм. Кроме того, Qwen2.5-VL сохраняет высокую лингвистическую производительность, поддерживая ключевые языковые компетенции модели Qwen2.5 LLM.
Генеративные базовые модели (GenFMs) стали революционным инструментом. Однако их широкое внедрение вызывает серьезные опасения в отношении доверия по различным аспектам. В данной статье представлена комплексная структура для решения этих проблем через три ключевых вклада. Во-первых, мы систематически анализируем глобальные законы и политики в области регулирования ИИ, разработанные правительствами и регулирующими органами, а также отраслевые практики и стандарты. На основе этого анализа мы предлагаем набор руководящих принципов для GenFMs, разработанных в ходе обширного междисциплинарного сотрудничества, объединяющего технические, этические, юридические и социальные перспективы. Во-вторых, мы представляем TrustGen — первую динамическую платформу для бенчмаркинга, предназначенную для оценки доверия по множеству аспектов и типов моделей, включая текстово-изобразительные, крупные языковые и визуально-языковые модели. TrustGen использует модульные компоненты — курацию метаданных, генерацию тестовых случаев и контекстуальные вариации — для обеспечения адаптивных и итеративных оценок, преодолевая ограничения статических методов оценки. С помощью TrustGen мы демонстрируем значительный прогресс в области доверия, одновременно выявляя сохраняющиеся проблемы. Наконец, мы предоставляем углубленное обсуждение вызовов и будущих направлений для создания доверенных GenFMs, раскрывая сложную и развивающуюся природу доверия, подчеркивая тонкие компромиссы между полезностью и доверием, а также учитывая различные приложения, выявляя сохраняющиеся проблемы и предлагая стратегическую дорожную карту для будущих исследований. Эта работа устанавливает целостную структуру для продвижения доверия в генеративном ИИ, прокладывая путь для более безопасной и ответственной интеграции GenFMs в критически важные приложения. Для содействия прогрессу в сообществе мы выпускаем инструментарий для динамической оценки.
Генерация песен из текста, задача создания вокала и аккомпанемента на основе текстовых входных данных, представляет значительные сложности из-за сложности предметной области и недостатка данных. Существующие подходы часто используют многоэтапные процедуры генерации, что приводит к громоздким процессам обучения и вывода. В данной работе мы предлагаем SongGen, полностью открытую одноэтапную авторегрессивную трансформерную модель, предназначенную для управляемой генерации песен. Предложенная модель обеспечивает детальный контроль над различными музыкальными атрибутами, включая текст песни и текстовые описания инструментовки, жанра, настроения и тембра, а также предлагает опциональный трехсекундный референсный фрагмент для клонирования голоса. В рамках единой авторегрессивной структуры SongGen поддерживает два режима вывода: смешанный режим, который напрямую генерирует микс вокала и аккомпанемента, и двухтрековый режим, который синтезирует их отдельно для большей гибкости в последующих приложениях. Мы исследуем различные стратегии токенизации для каждого режима, что приводит к значительным улучшениям и ценным инсайтам. Кроме того, мы разрабатываем автоматизированный конвейер предобработки данных с эффективным контролем качества. Для вовлечения сообщества и будущих исследований мы опубликуем веса модели, код обучения, аннотированные данные и конвейер предобработки. Сгенерированные примеры представлены на нашей странице проекта по адресу https://liuzh-19.github.io/SongGen/, а код будет доступен по адресу https://github.com/LiuZH-19/SongGen.
Существующие алгоритмы сквозного автономного вождения (AD) обычно следуют парадигме обучения с подражанием (Imitation Learning, IL), которая сталкивается с такими проблемами, как причинно-следственная путаница и разрыв в открытом цикле. В данной работе мы предлагаем новую парадигму обучения с подкреплением (Reinforcement Learning, RL) в замкнутом цикле, основанную на 3DGS-технологиях. Используя методы 3DGS, мы создаем фотореалистичную цифровую копию реального физического мира, что позволяет политике AD активно исследовать пространство состояний и обучаться справляться с ситуациями, выходящими за пределы распределения, через масштабные пробы и ошибки. Для повышения безопасности мы разрабатываем специализированные вознаграждения, которые направляют политику на эффективное реагирование на критические события и понимание причинно-следственных связей в реальном мире. Для лучшего соответствия поведению человека за рулем, IL интегрируется в обучение RL в качестве регуляризатора. Мы представляем эталонный тест для оценки в замкнутом цикле, состоящий из разнообразных, ранее не встречавшихся 3DGS-сред. По сравнению с методами на основе IL, RAD демонстрирует более высокую производительность по большинству метрик замкнутого цикла, особенно с трехкратным снижением частоты столкновений. Обширные результаты тестирования в замкнутом цикле представлены на https://hgao-cv.github.io/RAD.
Крупные языковые модели (LLM) демонстрируют выдающиеся результаты в задачах сложного логического рассуждения, и перенос их способностей к рассуждению в меньшие модели показал свою перспективность. Однако мы обнаружили интересное явление, которое назвали Проблемой Обучаемости Малых Моделей: небольшие модели (≤3B параметров) не всегда получают пользу от длинных цепочек рассуждений (CoT) или дистилляции из более крупных моделей. Вместо этого они показывают лучшие результаты, когда дообучаются на более коротких и простых цепочках рассуждений, которые лучше соответствуют их внутренней способности к обучению. Для решения этой проблемы мы предлагаем Mix Distillation — простую, но эффективную стратегию, которая балансирует сложность рассуждений, комбинируя длинные и короткие примеры CoT или рассуждения как из крупных, так и из малых моделей. Наши эксперименты показывают, что Mix Distillation значительно улучшает способность малых моделей к рассуждениям по сравнению с обучением только на одном типе данных. Эти результаты подчеркивают ограничения прямой дистилляции из сильных моделей и важность адаптации сложности рассуждений для эффективного переноса способностей к логическому мышлению.
Текстовые эмбеддинги обычно оцениваются на ограниченном наборе задач, которые ограничены языком, предметной областью и разнообразием задач. Чтобы устранить эти ограничения и обеспечить более всестороннюю оценку, мы представляем Massive Multilingual Text Embedding Benchmark (MMTEB) — крупномасштабное, разработанное сообществом расширение MTEB, охватывающее более 500 качественно контролируемых оценочных задач на более чем 250 языках. MMTEB включает разнообразный набор сложных, новых задач, таких как выполнение инструкций, поиск в длинных документах и поиск кода, представляя собой крупнейшую на сегодняшний день многоязычную коллекцию оценочных задач для моделей эмбеддингов. Используя эту коллекцию, мы разрабатываем несколько высоко многоязычных бенчмарков, которые применяем для оценки репрезентативного набора моделей. Мы обнаруживаем, что, хотя крупные языковые модели (LLM) с миллиардами параметров могут достигать передовых результатов на определенных подмножествах языков и категориях задач, лучшей из общедоступных моделей является multilingual-e5-large-instruct с всего 560 миллионами параметров. Для повышения доступности и снижения вычислительных затрат мы представляем новый метод даунсэмплинга, основанный на межзадачной корреляции, обеспечивая разнообразный выбор при сохранении относительных рейтингов моделей. Кроме того, мы оптимизируем такие задачи, как поиск, путем выборки сложных негативных примеров, создавая меньшие, но эффективные разделы. Эти оптимизации позволяют нам ввести бенчмарки, которые значительно снижают вычислительные требования. Например, наш новый zero-shot бенчмарк для английского языка сохраняет порядок ранжирования, аналогичный полномасштабной версии, но при значительно меньших вычислительных затратах.
Методы линейного моделирования последовательностей, такие как линейное внимание, моделирование пространства состояний и линейные рекуррентные нейронные сети (RNN), предлагают значительное повышение эффективности за счет снижения сложности обучения и вывода. Однако эти методы обычно сжимают всю входную последовательность в одно фиксированное состояние памяти, что приводит к неоптимальной производительности на задачах, требующих интенсивного воспроизведения информации. Вдохновляясь нейробиологией, в частности способностью мозга поддерживать устойчивую долговременную память, минимизируя "интерференцию памяти", мы представляем новую архитектуру под названием Mixture-of-Memories (MoM). MoM использует несколько независимых состояний памяти, а сеть-маршрутизатор направляет входные токены в конкретные состояния памяти. Этот подход значительно увеличивает общую емкость памяти, минимизируя интерференцию. В результате MoM демонстрирует исключительную производительность на задачах, требующих интенсивного воспроизведения, превосходя существующие методы линейного моделирования последовательностей. Несмотря на использование нескольких состояний памяти, вычисление каждого состояния остается линейным по сложности, что позволяет MoM сохранять преимущество линейной сложности при обучении и постоянной сложности при выводе. Наши эксперименты показывают, что MoM значительно превосходит современные линейные модели последовательностей на языковых задачах, особенно на задачах, требующих интенсивного воспроизведения, и даже достигает производительности, сравнимой с моделями Transformer. Код доступен по адресу https://github.com/OpenSparseLLMs/MoM и также является частью https://github.com/OpenSparseLLMs/Linear-MoE.
Веб-краулинг является основным источником данных для предварительного обучения больших языковых моделей (LLM), однако большинство сканируемых веб-страниц отбрасываются из-за низкого качества данных. В данной статье представлен Crawl4LLM — эффективный метод веб-краулинга, который исследует веб-граф с учетом предпочтений для предварительного обучения LLM. В частности, он использует влияние веб-страницы на предварительное обучение LLM в качестве приоритетного показателя для планировщика веб-краулера, заменяя стандартный приоритет, основанный на связности графа. Наши эксперименты на веб-графе, содержащем 900 миллионов веб-страниц из индекса коммерческой поисковой системы, демонстрируют эффективность Crawl4LLM в получении высококачественных данных для предварительного обучения. При сканировании всего 21% URL-адресов LLM, обученные на данных Crawl4LLM, достигают тех же результатов на тестовых задачах, что и при использовании предыдущих методов краулинга, значительно сокращая объем ненужных данных и снижая нагрузку на веб-сайты. Наш код доступен по адресу https://github.com/cxcscmu/Crawl4LLM.
Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности благодаря предварительному обучению и согласованию. Однако высокопроизводительные LLM, оптимизированные для коротких контекстов, могут показывать низкие результаты в сценариях с длинными контекстами из-за недостаточного согласования для таких задач. Этот процесс согласования остается сложным из-за непрактичности ручной аннотации для длинных контекстов и трудности балансировки производительности в коротких и длинных контекстах. Для решения этих проблем мы представляем LongPO — метод, который позволяет LLM, оптимизированным для коротких контекстов, самостоятельно развиваться и преуспевать в задачах с длинными контекстами за счет внутреннего переноса возможностей, полученных в коротких контекстах. LongPO использует LLM для обучения на данных о предпочтениях, сгенерированных самими моделями, которые включают парные ответы на одинаковые инструкции с длинными контекстами и их сжатые аналоги с короткими контекстами. Эти предпочтения раскрывают возможности и потенциал LLM, развитые в ходе согласования для коротких контекстов, которые могут быть утрачены в недостаточно согласованных сценариях с длинными контекстами. Кроме того, LongPO включает ограничение KL (Кулбака-Лейблера) для минимизации снижения производительности в коротких контекстах в процессе согласования для длинных контекстов. Примененный к модели Mistral-7B-Instruct-v0.2 для контекстов длиной от 128K до 512K, LongPO полностью сохраняет производительность в коротких контекстах и значительно превосходит наивное SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization) как в задачах с длинными, так и с короткими контекстами. В частности, модели, обученные с использованием \ourMethod, достигают результатов на тестах для длинных контекстов, сопоставимых или даже превосходящих результаты более мощных LLM (например, GPT-4-128K), которые требуют обширной аннотации для длинных контекстов и большего масштаба параметров.
Приложения, основанные на больших языковых моделях (LLM), эволюционируют за пределы простых чат-ботов, превращаясь в динамические, универсальные агентские программы, которые масштабируют вызовы LLM и выходные токены, чтобы помочь ИИ-агентам рассуждать, исследовать и решать сложные задачи. Однако существующие системы обслуживания LLM игнорируют зависимости между программами и вызовами, упуская значительные возможности для оптимизации. Наш анализ показывает, что программы, отправленные в системы обслуживания LLM, сталкиваются с длительными совокупными временами ожидания, в основном из-за блокировки в начале очереди как на уровне отдельных запросов LLM, так и на уровне программы. Для решения этой проблемы мы представляем Autellix — систему обслуживания LLM, которая рассматривает программы как объекты первого класса, чтобы минимизировать их сквозные задержки. Autellix перехватывает вызовы LLM, отправленные программами, обогащая планировщики контекстом на уровне программы. Мы предлагаем два алгоритма планирования — для однопоточных и распределенных программ, — которые прерывают и приоритизируют вызовы LLM на основе ранее завершенных вызовов их программ. Наши оценки показывают, что для различных LLM и агентских рабочих нагрузок Autellix повышает пропускную способность программ в 4–15 раз при той же задержке по сравнению с передовыми системами, такими как vLLM.
Контролируемая тонкая настройка (Supervised Fine-Tuning, SFT) является проверенным и эффективным методом для улучшения длинных цепочек рассуждений (Chain-of-Thought, CoT) в относительно небольших языковых моделях (LLM) путем их тонкой настройки с использованием длинных CoT-ответов от более крупных LLM. Для постоянного улучшения способностей к рассуждению можно либо собирать новые высококачественные данные SFT с длинными CoT-рассуждениями, либо повторно обучать модели на существующих наборах данных SFT. Однако получение новых данных SFT с длинными CoT-рассуждениями является дорогостоящим и ограниченным процессом, а повторное обучение часто приводит к плато или снижению производительности. Чтобы дополнительно повысить эффективность с использованием данных SFT, мы предлагаем метод Оптимизации Предпочтений Рассуждений (Thinking Preference Optimization, ThinkPO) — простой, но эффективный подход, применяемый после SFT, который улучшает длинные CoT-рассуждения без необходимости в новых длинных CoT-ответах. Вместо этого ThinkPO использует легко доступные или легко получаемые короткие CoT-рассуждения в качестве отвергнутых ответов и длинные CoT-ответы в качестве выбранных ответов на один и тот же вопрос. Затем метод применяет прямую оптимизацию предпочтений, чтобы побудить модель отдавать предпочтение более длинным выводам рассуждений. Эксперименты показывают, что ThinkPO дополнительно улучшает производительность моделей, прошедших SFT, например, увеличивает точность математических рассуждений на 8,6% и длину вывода на 25,9%. Примечательно, что ThinkPO способен постоянно повышать производительность публично доступных моделей, прошедших SFT, например, увеличивая производительность официальной модели DeepSeek-R1-Distill-Qwen-7B на тесте MATH500 с 87,4% до 91,2%.
Крупные языковые модели (LLM) демонстрируют впечатляющие способности в общих областях, но часто испытывают трудности с задачами, требующими специализированных знаний. Традиционные методы генерации с усилением за счёт извлечения (RAG) обычно извлекают внешнюю информацию из статических баз знаний, которые могут быть устаревшими или неполными, упуская детализированные клинические данные, необходимые для точного ответа на медицинские вопросы. В данной работе мы предлагаем SearchRAG — новый подход, который преодолевает эти ограничения за счёт использования поисковых систем в реальном времени. Наш метод применяет синтетическую генерацию запросов для преобразования сложных медицинских вопросов в запросы, удобные для поисковых систем, и использует выбор знаний на основе неопределённости для фильтрации и включения наиболее релевантной и информативной медицинской информации во входные данные LLM. Экспериментальные результаты показывают, что наш метод значительно повышает точность ответов в задачах медицинского вопросно-ответного взаимодействия, особенно для сложных вопросов, требующих детализированных и актуальных знаний.
Крупные языковые модели (LLM) значительно продвинули обработку естественного языка благодаря исключительной способности к обобщению задач. Низкоранговая адаптация (LoRA) предлагает экономичное решение для тонкой настройки, замораживая параметры исходной модели и обучая только легковесные низкоранговые адаптерные матрицы. Однако объем памяти, занимаемый LoRA, в основном определяется параметрами исходной модели. Чтобы смягчить эту проблему, мы предлагаем LoRAM — эффективную с точки зрения памяти схему обучения LoRA, основанную на интуиции, что многие нейроны в перепараметризованных LLM имеют низкую полезность для обучения, но необходимы для вывода. LoRAM предлагает уникальный подход: обучение проводится на урезанной (маленькой) модели для получения урезанных низкоранговых матриц, которые затем восстанавливаются и используются с исходной (большой) моделью для вывода. Дополнительно, минимально затратное непрерывное предварительное обучение, выполняемое издателями моделей заранее, устраняет расхождение в знаниях между урезанной и исходной моделями. Наши обширные эксперименты демонстрируют эффективность LoRAM при различных стратегиях урезания и последующих задачах. Для модели с 70 миллиардами параметров LoRAM позволяет проводить обучение на GPU с объемом памяти всего 20 ГБ HBM, заменяя GPU A100-80G для обучения LoRA и 15 GPU для полной тонкой настройки. В частности, QLoRAM, реализованный с использованием структурированного урезания в сочетании с 4-битной квантизацией для LLaMA-3.1-70B (LLaMA-2-70B), снижает затраты на хранение параметров, которые доминируют в использовании памяти при обучении низкоранговых матриц, в 15,81 раза (16,95 раза), при этом достигая значительного прироста производительности по сравнению как с исходной LLaMA-3.1-70B (LLaMA-2-70B), так и с LLaMA-3.1-8B (LLaMA-2-13B), обученной с использованием LoRA.
Имена тесно связаны с человеческой идентичностью. Они могут служить маркерами индивидуальности, культурного наследия и личной истории. Однако использование имен в качестве основного индикатора идентичности может привести к упрощению сложных идентичностей. При взаимодействии с языковыми моделями (LLM) имена пользователей являются важным источником информации для персонализации. Имена могут появляться в диалогах с чат-ботами через прямое введение пользователем (запрашиваемое ботами), в контексте задач, таких как анализ резюме, или в качестве встроенных функций памяти, которые сохраняют информацию о пользователе для персонализации. Мы исследуем предубеждения, связанные с именами, измеряя культурные предположения в ответах, генерируемых LLM, на типичные запросы, связанные с поиском рекомендаций, которые могут включать предположения о пользователе. Наши анализы демонстрируют сильные предположения о культурной идентичности, связанной с именами, которые присутствуют в генерациях LLM для различных культур. Наша работа имеет значение для проектирования более тонких систем персонализации, которые избегают усиления стереотипов, сохраняя при этом значимую настройку.
Безопасность крупных языковых моделей (LLM) остается уязвимой, так как их начальное поведение может быть легко нарушено даже относительно простыми атаками. Поскольку заполнение фиксированного шаблона между входной инструкцией и начальным выводом модели является распространенной практикой для существующих LLM, мы предполагаем, что этот шаблон является ключевым фактором их уязвимостей: принятие решений, связанных с безопасностью, в LLM чрезмерно зависит от агрегированной информации из области шаблона, что существенно влияет на безопасное поведение этих моделей. Мы называем эту проблему "безопасностью, закрепленной за шаблоном". В данной статье мы проводим обширные эксперименты и подтверждаем, что безопасность, закрепленная за шаблоном, широко распространена среди различных выровненных LLM. Наши механистические анализы демонстрируют, как это приводит к уязвимости моделей при столкновении с атаками на этапе вывода. Кроме того, мы показываем, что отделение механизмов безопасности от области шаблона является перспективным подходом для снижения уязвимости к атакам. Мы призываем будущие исследования разрабатывать более надежные методы обеспечения безопасности, которые уменьшают зависимость от области шаблона.
Современные подходы к обучению моделей вознаграждения процессов (PRMs) часто включают разбиение ответов на несколько шагов рассуждения с использованием правил, таких как применение предопределённых токенов-заполнителей или фиксация длины шага рассуждения. Эти подходы упускают из виду тот факт, что конкретные слова обычно не являются истинными точками принятия решений в тексте. Для решения этой проблемы мы предлагаем метод AdaptiveStep, который разделяет шаги рассуждения на основе уверенности модели в предсказании следующего слова. Такой подход обеспечивает больше информации для принятия решений на каждом шаге, улучшая выполнение последующих задач, таких как обучение модели вознаграждения. Кроме того, наш метод не требует ручной аннотации. Мы демонстрируем его эффективность в экспериментах с PRMs, обученными с использованием AdaptiveStep, на задачах математического рассуждения и генерации кода. Результаты экспериментов показывают, что полученная PRM достигает наилучших показателей в стратегии Best-of-N, превосходя стратегию жадного поиска с декодированием, управляемым значением на уровне токенов, а также снижает затраты на построение более чем на 30% по сравнению с существующими открытыми PRMs. Дополнительно мы проводим детальный анализ и кейс-стади по производительности, переносимости и обобщающей способности PRM.
Генерация 3D молекул играет ключевую роль в открытии лекарств и проектировании материалов. Хотя предыдущие исследования сосредоточены на 3D диффузионных моделях благодаря их преимуществам в моделировании непрерывных 3D конформеров, они упускают из виду достоинства 1D языковых моделей (Language Models, LMs), основанных на SELFIES, которые способны генерировать 100% валидные молекулы и использовать миллиардные наборы данных 1D молекул. Чтобы объединить эти преимущества для генерации 3D молекул, мы предлагаем базовую модель — NExT-Mol: 3D диффузия встречается с 1D языковым моделированием для генерации 3D молекул. NExT-Mol использует предварительно обученную молекулярную LM для генерации 1D молекул, а затем предсказывает 3D конформеры сгенерированных молекул с помощью 3D диффузионной модели. Мы улучшаем производительность NExT-Mol, увеличивая размер модели LM, совершенствуя архитектуру диффузионной нейронной сети и применяя обучение с переносом от 1D к 3D. Примечательно, что наша 1D молекулярная LM значительно превосходит базовые модели по сходству распределений, обеспечивая при этом валидность, а наша 3D диффузионная модель демонстрирует лидирующие результаты в предсказании конформеров. Благодаря этим улучшениям в 1D и 3D моделировании, NExT-Mol достигает 26% относительного улучшения в 3D FCD для de novo генерации 3D молекул на данных GEOM-DRUGS и 13% среднего относительного прироста для условной генерации 3D молекул на данных QM9-2014. Наши коды и предварительно обученные модели доступны по адресу https://github.com/acharkq/NExT-Mol.
Крупные языковые модели (LLM) и мультимодальные крупные языковые модели (MLLM) достигли значительного прогресса в способностях к рассуждению. Однако они по-прежнему сталкиваются с такими проблемами, как высокие вычислительные требования и вопросы конфиденциальности. В данной статье основное внимание уделяется разработке эффективных малых языковых моделей (SLM) и мультимодальных малых языковых моделей (MSLM), которые сохраняют конкурентоспособные способности к рассуждению. Мы представляем новый подход к обучению, который улучшает способности к рассуждению и облегчает развертывание на периферийных устройствах, достигая передовых показателей производительности при минимизации затрат на разработку. \InfR~ направлен на развитие систем искусственного интеллекта за счет улучшения способностей к рассуждению, снижения барьеров для внедрения и решения вопросов конфиденциальности благодаря уменьшению размеров моделей. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiR.
Машинное обучение, основа современного искусственного интеллекта, стало движущей силой инноваций, которые коренным образом изменили мир. Однако за этими достижениями скрывается сложный и зачастую утомительный процесс, требующий трудоемких и вычислительно интенсивных итераций и экспериментов. Инженеры и ученые, разрабатывающие модели машинного обучения, тратят большую часть своего времени на задачи методом проб и ошибок, вместо того чтобы сосредоточиться на концептуализации инновационных решений или исследовательских гипотез. Для решения этой проблемы мы представляем AI-Driven Exploration (AIDE) — агента инженерии машинного обучения, основанного на больших языковых моделях (LLM). AIDE рассматривает инженерию машинного обучения как задачу оптимизации кода и формулирует процесс проб и ошибок как поиск в дереве возможных решений. Стратегически повторно используя и улучшая перспективные решения, AIDE эффективно обменивает вычислительные ресурсы на повышение производительности, достигая передовых результатов на множестве эталонных тестов инженерии машинного обучения, включая наши оценки на Kaggle, OpenAI MLE-Bench и METRs RE-Bench.
Мы представляем TESS 2 — универсальную диффузионную языковую модель, способную выполнять инструкции, которая превосходит современные диффузионные модели, настроенные на выполнение инструкций, а также сопоставима, а иногда и превосходит сильные авторегрессивные (AR) модели. Мы обучаем TESS 2, сначала адаптируя мощную AR-модель с помощью продолженного предобучения с использованием стандартной кросс-энтропии в качестве диффузионной функции потерь, а затем проводим дополнительную настройку на выполнение инструкций. Мы обнаруживаем, что адаптационное обучение, а также выбор базовой модели имеют решающее значение для обучения качественных диффузионных моделей, способных выполнять инструкции. Кроме того, мы предлагаем метод награждающего управления — новый и модульный подход к управлению на этапе вывода, который позволяет согласовывать выходные данные модели без необходимости переобучения основной модели. Наконец, мы показываем, что TESS 2 демонстрирует улучшение с увеличением вычислительных ресурсов на этапе вывода, подчеркивая полезность диффузионных языковых моделей в обеспечении детального контроля над объемом вычислений, используемых на этапе вывода. Код и модели доступны по адресу https://github.com/hamishivi/tess-2.
Долгосрочные способности к открытому диалогу имеют ключевое значение для чат-ботов, стремящихся запоминать прошлые взаимодействия и демонстрировать эмоциональный интеллект (ЭИ). Однако большинство существующих исследований опирается на синтетические данные, сгенерированные крупными языковыми моделями (LLM), что оставляет открытыми вопросы о реальных паттернах общения. Чтобы восполнить этот пробел, мы представляем REALTALK — 21-дневный корпус аутентичных диалогов из мессенджеров, который служит прямым эталоном для сравнения с реальными человеческими взаимодействиями. Сначала мы проводим анализ набора данных, сосредотачиваясь на атрибутах ЭИ и согласованности личности, чтобы понять уникальные вызовы, которые ставят реальные диалоги. Сравнивая их с диалогами, сгенерированными LLM, мы выделяем ключевые различия, включая разнообразие эмоциональных выражений и вариации в стабильности личности, которые синтетические диалоги часто не способны передать. На основе этих наблюдений мы вводим две эталонные задачи: (1) симуляция личности, где модель продолжает диалог от имени конкретного пользователя, учитывая контекст предыдущих сообщений; и (2) проверка памяти, где модель отвечает на целевые вопросы, требующие долгосрочного запоминания прошлых взаимодействий. Наши результаты показывают, что модели испытывают трудности в симуляции пользователя исключительно на основе истории диалогов, в то время как дообучение на конкретных чатах улучшает эмуляцию личности. Кроме того, существующие модели сталкиваются с существенными сложностями в запоминании и использовании долгосрочного контекста в рамках реальных разговоров.
Использование больших языковых моделей (LLM) для оценки релевантности открывает многообещающие возможности для улучшения информационного поиска (IR), обработки естественного языка (NLP) и смежных областей. Действительно, LLM позволяют исследователям в области IR создавать коллекции для оценки с минимальными затратами ручного труда, что особенно полезно для новых тем, по которым пока недостаточно данных, а также для решения проблем оценки ранжирующих систем в условиях ограниченных ресурсов, где сложно найти человеческих аннотаторов. Учитывая стремительное развитие этой области, многие вопросы, связанные с использованием LLM в качестве оценщиков, остаются без ответа. Среди аспектов, требующих дальнейшего изучения, можно выделить влияние различных компонентов в процессе генерации суждений о релевантности, таких как используемый промт или выбранная LLM. В данной статье представлены результаты масштабной автоматической оценки релевантности, проведенной в рамках конкурса LLMJudge на конференции SIGIR 2024, где были предложены различные подходы к оценке релевантности. В частности, мы публикуем и анализируем 42 метки, сгенерированные LLM для суждений о релевантности трека TREC 2023 Deep Learning, созданные восемью международными командами, участвовавшими в конкурсе. Благодаря своему разнообразию, эти автоматически сгенерированные суждения о релевантности могут помочь сообществу не только исследовать систематические ошибки, вызванные LLM, но и изучить эффективность ансамблевых моделей, проанализировать компромиссы между различными моделями и человеческими оценщиками, а также разработать методики для улучшения автоматизированных методов оценки. Опубликованный ресурс доступен по следующей ссылке: https://llm4eval.github.io/LLMJudge-benchmark/
Крупные языковые модели (LLM) всё чаще используются в рабочих средах для решения широкого круга задач, демонстрируя высокую эффективность в решении отдельных изолированных проблем. Однако способны ли они также эффективно сотрудничать в долгосрочных взаимодействиях? Чтобы исследовать этот вопрос, мы представляем MemoryCode — синтетический набор данных для многосессионного тестирования, предназначенный для проверки способности LLM отслеживать и выполнять простые инструкции по кодированию в условиях наличия нерелевантной информации, что имитирует реалистичную среду. Хотя все протестированные модели хорошо справляются с изолированными инструкциями, даже производительность передовых моделей, таких как GPT-4o, ухудшается, когда инструкции распределены между сессиями. Наш анализ показывает, что это связано с их неспособностью извлекать и интегрировать информацию в длинных цепочках инструкций. Результаты подчеркивают фундаментальное ограничение современных LLM, которое ограничивает их способность эффективно сотрудничать в долгосрочных взаимодействиях.
Генеративная рекомендация (GR) — это новая парадигма, в которой действия пользователей токенизируются в дискретные шаблоны токенов и авторегрессивно генерируются как предсказания. Однако существующие модели GR токенизируют каждое действие независимо, присваивая одинаковые фиксированные токены идентичным действиям во всех последовательностях, не учитывая контекстуальные связи. Это отсутствие учета контекста может приводить к неоптимальной производительности, поскольку одно и то же действие может иметь разное значение в зависимости от окружающего контекста. Чтобы решить эту проблему, мы предлагаем метод ActionPiece, который явно учитывает контекст при токенизации последовательностей действий. В ActionPiece каждое действие представлено как набор характеристик элементов, которые служат начальными токенами. На основе корпусов последовательностей действий мы строим словарь, объединяя шаблоны характеристик в новые токены на основе их частоты совместного появления как внутри отдельных наборов, так и между соседними наборами. Учитывая неупорядоченный характер наборов характеристик, мы также вводим регуляризацию перестановок наборов, которая создает несколько сегментаций последовательностей действий с одинаковой семантикой. Эксперименты на публичных наборах данных показывают, что ActionPiece стабильно превосходит существующие методы токенизации действий, улучшая NDCG@10 на 6,00% до 12,82%.
Галлюцинации в выводах больших языковых моделей (LLM) существенно ограничивают их надежность в задачах, требующих глубоких знаний, таких как ответы на вопросы. Для решения этой проблемы мы представляем REFIND (Retrieval-augmented Factuality hallucINation Detection) — новый фреймворк, который обнаруживает галлюцинированные фрагменты в выводах LLM, напрямую используя извлеченные документы. В рамках REFIND мы предлагаем Context Sensitivity Ratio (CSR) — новую метрику, которая количественно оценивает чувствительность выводов LLM к извлеченным доказательствам. Этот инновационный подход позволяет REFIND эффективно и точно обнаруживать галлюцинации, выделяя его среди существующих методов. В ходе оценки REFIND продемонстрировал устойчивость в девяти языках, включая низкоресурсные среды, и значительно превзошел базовые модели, достигнув превосходных показателей IoU в идентификации галлюцинированных фрагментов. Эта работа подчеркивает эффективность количественной оценки чувствительности к контексту для обнаружения галлюцинаций, прокладывая путь к более надежным и доверенным приложениям LLM на различных языках.
Множественный выбор ответов (MCQA) популярен для оценки больших языковых моделей (LLM) благодаря своей простоте и сходству с человеческим тестированием, однако мы выступаем за его реформу. Сначала мы выявляем недостатки формата MCQA, так как он не способен: 1) тестировать генерацию и субъективность; 2) соответствовать сценариям использования LLM; 3) полноценно проверять знания. Вместо этого мы предлагаем использовать генеративные форматы, основанные на человеческом тестировании, где LLM создают и объясняют ответы, что лучше отражает потребности пользователей и проверяет знания, оставаясь при этом простым для оценки. Затем мы показываем, что даже когда MCQA является полезным форматом, его наборы данных страдают от: утечек; невозможности ответа; упрощённых решений; и насыщения. Для каждой из этих проблем мы предлагаем решения из области образования, такие как рубрики для написания вопросов с множественным выбором; методы оценки, ограничивающие угадывание; и теорию ответа на задания (Item Response Theory) для создания более сложных вопросов. Наконец, мы обсуждаем ошибки LLM в MCQA — устойчивость, предвзятость и недостоверные объяснения — показывая, как наши предложенные решения лучше измеряют или устраняют эти проблемы. Хотя нам не нужно полностью отказываться от MCQA, мы призываем приложить больше усилий для улучшения этой задачи на основе образовательного тестирования, продвигая более совершенные методы оценки.
Крупные визуально-языковые модели (LVLMs) недавно привлекли внимание благодаря их выдающейся производительности и широкой применимости. Хотя ранее было показано, что их эффективность в сценариях использования, связанных с не-западными контекстами, оставляет желать лучшего, существующие исследования ограничены по охвату, затрагивая лишь узкий круг культур, сосредотачиваясь исключительно на небольшом количестве культурных аспектов или оценивая ограниченный набор моделей только на одной задаче. В направлении глобально инклюзивных исследований LVLM мы представляем GIMMICK — обширный мультимодальный бенчмарк, разработанный для оценки широкого спектра культурных знаний в 144 странах, представляющих шесть глобальных макрорегионов. GIMMICK включает шесть задач, основанных на трех новых наборах данных, охватывающих 728 уникальных культурных событий или аспектов, на которых мы оценили 20 LVLM и 11 LLM, включая пять проприетарных и 26 моделей с открытыми весами всех размеров. Мы систематически исследуем (1) региональные культурные предубеждения, (2) влияние размера модели, (3) входные модальности и (4) внешние подсказки. Наши анализы выявляют сильные предубеждения в сторону западных культур среди моделей и задач, а также подчеркивают сильную корреляцию между размером модели и производительностью, а также эффективность мультимодального ввода и внешних географических подсказок. Мы также обнаруживаем, что модели обладают большими знаниями о материальных, чем о нематериальных аспектах (например, еда vs. ритуалы), и что они преуспевают в распознавании широких культурных истоков, но испытывают трудности с более тонким пониманием.
Существующие мультиязычные бенчмарки для задач, связанных с визуальным и языковым восприятием (vision-language, VL), часто охватывают лишь ограниченное количество языков. В результате оценки крупных моделей, работающих с визуальными и языковыми данными (large vision-language models, LVLMs), в основном сосредоточены на языках с высоким уровнем ресурсной обеспеченности, что подчеркивает необходимость в данных для оценки языков с низким уровнем ресурсов. Чтобы устранить этот недостаток, мы представляем MVL-SIB — массово мультиязычный бенчмарк для задач VL, который оценивает как кросс-модальное, так и текстовое тематическое соответствие для 205 языков — более чем на 100 языков больше, чем охватывают самые мультиязычные существующие бенчмарки VL. Затем мы тестируем ряд открытых моделей LVLM вместе с GPT-4o(-mini) на MVL-SIB. Наши результаты показывают, что LVLM испытывают трудности с кросс-модальным тематическим соответствием для языков с низким уровнем ресурсов, демонстрируя результаты не лучше случайных для таких языков, как N'Koo. Наш анализ также выявляет, что поддержка VL в LVLM снижается непропорционально по сравнению с текстовой поддержкой для языков с низким уровнем ресурсов, что подтверждается сравнением производительности в кросс-модальном и текстовом тематическом соответствии. Мы также отмечаем, что открытые модели LVLM не получают преимущества от представления темы с использованием более чем одного изображения, что указывает на то, что эти модели пока не полностью эффективны в задачах, связанных с обработкой нескольких изображений. Сопоставляя результаты на MVL-SIB с другими мультиязычными бенчмарками VL, мы подчеркиваем, что MVL-SIB служит всесторонним инструментом для исследования мультиязычного понимания VL в LVLM.
Несмотря на недавние достижения в области синтеза новых ракурсов (Novel View Synthesis, NVS), генерация высококачественных изображений на основе одного или нескольких наблюдений остается сложной задачей. Существующие подходы, основанные на сплаттинге, часто приводят к искажениям геометрии из-за ошибок сплаттинга. В то время как методы, основанные на диффузии, используют богатые 3D-приоры для улучшения геометрии, они часто страдают от галлюцинаций текстур. В данной статье мы представляем SplatDiff — модель видеодиффузии, управляемую пиксельным сплаттингом, предназначенную для синтеза высококачественных новых ракурсов на основе одного изображения. В частности, мы предлагаем стратегию согласованного синтеза для точного управления целевыми ракурсами и синтеза геометрически согласованных видов. Для минимизации галлюцинаций текстур мы разработали модуль текстурирования, который обеспечивает генерацию высококачественных текстур за счет адаптивного слияния признаков. Таким образом, SplatDiff объединяет преимущества сплаттинга и диффузии для генерации новых ракурсов с согласованной геометрией и высококачественными деталями. Многочисленные эксперименты подтверждают передовые характеристики SplatDiff в задаче синтеза новых ракурсов на основе одного изображения. Кроме того, без дополнительного обучения SplatDiff демонстрирует впечатляющую производительность в задачах нулевого сэмплинга, включая синтез новых ракурсов на основе нескольких изображений и преобразование стереовидео.
Полуавтоматическая адаптация к гетерогенным доменам (SHDA) решает задачу обучения в условиях, когда домены имеют различные представления признаков и распределения, при этом образцы исходного домена размечены, а большинство образцов целевого домена не размечены, за исключением небольшой их части. Кроме того, отсутствует прямое соответствие между образцами исходного и целевого доменов. Хотя для решения этой проблемы было разработано множество методов SHDA, природа знаний, передаваемых между гетерогенными доменами, остается неясной. В данной статье этот вопрос исследуется с эмпирической точки зрения. Мы проводим обширные эксперименты на примерно 330 задачах SHDA, используя два метода обучения с учителем и семь репрезентативных методов SHDA. Удивительно, но наши наблюдения показывают, что информация о категориях и признаках образцов исходного домена не оказывает значительного влияния на производительность в целевом домене. Кроме того, шум, извлеченный из простых распределений, при использовании в качестве образцов исходного домена может содержать передаваемые знания. Основываясь на этом инсайте, мы проводим серию экспериментов, чтобы раскрыть основные принципы передаваемых знаний в SHDA. В частности, мы разрабатываем унифицированную Структуру Передачи Знаний (KTF) для SHDA. На основе KTF мы обнаруживаем, что передаваемые знания в SHDA в основном происходят из переносимости и различимости исходного домена. Следовательно, обеспечение этих свойств в образцах исходного домена, независимо от их происхождения (например, изображения, текст, шум), может повысить эффективность передачи знаний в задачах SHDA. Коды и наборы данных доступны по адресу https://github.com/yyyaoyuan/SHDA.
Способность генерировать SPARQL-запросы на основе вопросов на естественном языке имеет решающее значение для обеспечения эффективного и точного извлечения структурированных данных из графов знаний (KG). Хотя крупные языковые модели (LLM) широко используются для генерации SPARQL-запросов, они часто подвержены галлюцинациям и ошибкам, связанным с выходом за пределы распределения, при создании элементов KG, таких как унифицированные идентификаторы ресурсов (URI), на основе внутренних параметрических знаний. Это часто приводит к созданию контента, который кажется правдоподобным, но фактически является ошибочным, что создает значительные трудности для их использования в реальных приложениях информационного поиска (IR). Это привело к увеличению исследований, направленных на обнаружение и устранение таких ошибок. В данной статье мы представляем PGMR (Post-Generation Memory Retrieval), модульную структуру, которая включает непараметрический модуль памяти для извлечения элементов KG и улучшения генерации SPARQL-запросов на основе LLM. Наши экспериментальные результаты показывают, что PGMR демонстрирует стабильно высокую производительность на различных наборах данных, распределениях данных и LLM. В частности, PGMR значительно снижает количество галлюцинаций URI, практически устраняя эту проблему в ряде сценариев.