Ежедневно отобранные исследовательские статьи по ИИ с переводами
Моделирование длинных контекстов имеет ключевое значение для языковых моделей следующего поколения, однако высокая вычислительная стоимость стандартных механизмов внимания создает значительные вычислительные трудности. Разреженное внимание предлагает перспективное направление для повышения эффективности при сохранении возможностей модели. Мы представляем NSA (Natively trainable Sparse Attention) — механизм разреженного внимания, который интегрирует алгоритмические инновации с оптимизациями, ориентированными на аппаратное обеспечение, для достижения эффективного моделирования длинных контекстов. NSA использует динамическую иерархическую стратегию разрежения, сочетая грубое сжатие токенов с точным выбором токенов для сохранения как глобальной осведомленности о контексте, так и локальной точности. Наш подход продвигает дизайн разреженного внимания с двумя ключевыми инновациями: (1) Мы достигаем значительного ускорения за счет сбалансированного по арифметической интенсивности проектирования алгоритма с оптимизациями для современного оборудования. (2) Мы обеспечиваем сквозное обучение, сокращая вычисления на этапе предварительного обучения без ущерба для производительности модели. Как показано на Рисунке 1, эксперименты демонстрируют, что модель, предварительно обученная с использованием NSA, сохраняет или превосходит модели с полным вниманием на общих бенчмарках, задачах с длинным контекстом и рассуждениях на основе инструкций. При этом NSA достигает значительного ускорения по сравнению с полным вниманием на последовательностях длиной 64k токенов на этапах декодирования, прямого и обратного распространения, подтверждая свою эффективность на протяжении всего жизненного цикла модели.
Мы представляем SWE-Lancer, бенчмарк из более чем 1 400 задач по фрилансу в области программной инженерии с платформы Upwork, общей стоимостью в 1 миллион долларов США в реальных выплатах. SWE-Lancer охватывает как независимые инженерные задачи - от 50 исправлений ошибок до реализации функций на сумму до 32 000 долларов, так и управленческие задачи, где модели выбирают между техническими предложениями по реализации. Независимые задачи оцениваются с помощью комплексных тестов, проверенных тремя опытными программистами, в то время как управленческие решения оцениваются по выбору оригинальных нанятых менеджеров по инженерии. Мы оцениваем производительность модели и обнаруживаем, что передовые модели все еще не способны решить большинство задач. Для облегчения будущих исследований мы предоставляем в открытый доступ унифицированный образ Docker и общедоступное разделение на оценку, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Путем сопоставления производительности модели с денежной стоимостью мы надеемся, что SWE-Lancer позволит провести более глубокие исследования в области экономического влияния разработки моделей искусственного интеллекта.
Автоматическое восстановление после падения является важным предварительным условием перед надежным развертыванием гуманоидных роботов. Ручное проектирование контроллеров для вставания затруднительно из-за разнообразных конфигураций, в которых гуманоид может оказаться после падения, а также из-за сложных местностей, на которых ожидается работа гуманоидных роботов. В данной статье разрабатывается обучающая структура для создания контроллеров, позволяющих гуманоидным роботам вставать из различных конфигураций на различных местностях. В отличие от предыдущих успешных применений обучения гуманоидной локомоции, задача вставания включает в себя сложные контактные паттерны, что требует точного моделирования геометрии столкновения и более разреженных вознаграждений. Мы решаем эти проблемы через двухфазный подход, который следует учебному плану. Первая стадия сосредотачивается на поиске оптимальной траектории вставания с минимальными ограничениями на плавность или пределы скорости/момента. Вторая стадия затем улучшает обнаруженные движения до развертываемых (т.е. плавных и медленных) движений, устойчивых к изменениям начальной конфигурации и местности. Мы обнаружили, что эти инновации позволяют реальному гуманоидному роботу G1 вставать из двух основных ситуаций, которые мы рассматривали: а) лежа лицом вверх и б) лежа лицом вниз, обе протестированы на плоских, деформируемых, скользких поверхностях и склонах (например, крутой траве и снежном поле). На наш взгляд, это первая успешная демонстрация изученных политик вставания для гуманоидных роботов человеческого размера в реальном мире. Страница проекта: https://humanoid-getup.github.io/
В данной статье представлен ThinkDiff — новая парадигма выравнивания, которая наделяет модели диффузии "текст-изображение" способностью к мультимодальному пониманию и рассуждению в контексте, интегрируя преимущества моделей "визуальный язык" (VLMs). Существующие методы тонкой настройки мультимодальной диффузии в основном сосредоточены на реконструкции на уровне пикселей, а не на рассуждениях в контексте, и ограничены сложностью и ограниченной доступностью наборов данных, ориентированных на рассуждения. ThinkDiff решает эти проблемы, используя обучение на задачах "визуальный язык" в качестве прокси-задачи, выравнивая VLMs с декодером модели языка с кодировщиком-декодером (LLM) вместо декодера диффузии. Эта прокси-задача основана на наблюдении, что декодер LLM использует то же пространство входных признаков, что и декодеры диффузии, которые применяют соответствующий кодировщик LLM для встраивания запросов. В результате выравнивание VLMs с декодерами диффузии можно упростить через выравнивание с декодером LLM. Без сложного обучения и наборов данных ThinkDiff эффективно раскрывает способности к пониманию, рассуждению и композиции в моделях диффузии. Эксперименты показывают, что ThinkDiff значительно улучшает точность с 19,2% до 46,3% на сложном бенчмарке CoBSAT для генерации мультимодальных рассуждений в контексте, при этом обучение занимает всего 5 часов на 4 GPU A100. Кроме того, ThinkDiff демонстрирует выдающуюся производительность в композиции нескольких изображений и текстов в логически согласованные изображения. Страница проекта: https://mizhenxing.github.io/ThinkDiff.
Существующие методы отказа от обучения для больших языковых моделей обычно основаны на обратной оптимизации для снижения вероятностей целевых токенов. Однако этот подход нарушает предсказание последующих токенов, что снижает производительность модели и лингвистическую связность. Более того, существующие метрики оценки переобучения слишком сосредоточены на контекстном забывании, недостаточно оценивая связность и релевантность ответов. Для решения этих проблем мы предлагаем ReLearn - конвейер для эффективного отказа от обучения с использованием аугментации данных и донастройки, а также комплексную систему оценки. Эта система вводит показатели Скорость Забывания Знаний (KFR) и Скорость Сохранения Знаний (KRR) для измерения сохранения уровня знаний, а также Лингвистический Оценочный Балл (LS) для оценки качества генерации. Наши эксперименты показывают, что ReLearn успешно достигает целевого забывания, сохраняя при этом высококачественный вывод. Через механистический анализ мы также демонстрируем, как обратная оптимизация нарушает когерентную генерацию текста, в то время как ReLearn сохраняет эту важную способность. Код доступен по ссылке https://github.com/zjunlp/unlearn.
Несмотря на исключительные возможности в задачах, требующих большого объема знаний, большие языковые модели (Large Language Models, LLM) сталкиваются с критическим разрывом в понимании того, как они усваивают новые знания, особенно как структурно внедрить усвоенные знания в свои нейронные вычисления. Мы решаем эту проблему через призму эволюции знаниевых цепей, выявляя вычислительные подграфы, которые облегчают хранение и обработку знаний. Наша систематическая аналитика эволюции цепей на протяжении непрерывного предварительного обучения выявляет несколько ключевых результатов: (1) усвоение новых знаний влияет на их значимость для предварительно существующих знаний; (2) эволюция знаниевых цепей проявляет отчетливый сдвиг фазы от формирования к оптимизации; (3) эволюция знаниевых цепей следует глубокому-к поверхностному шаблону. Эти исследования не только продвигают наше теоретическое понимание механизмов усвоения новых знаний в LLM, но также предоставляют потенциальные выводы для улучшения стратегий непрерывного предварительного обучения для повышения производительности модели. Код и данные будут доступны на https://github.com/zjunlp/DynamicKnowledgeCircuits.
Генерация кода, символьное математическое рассуждение и другие задачи требуют от LLM'ов производить выходные данные, которые будут как синтаксически, так и семантически корректными. Генерация ограниченных LLM'ов - это перспективное направление для обеспечения соблюдения формальной грамматики, однако предшествующие работы эмпирически наблюдали, что строгое соблюдение формальных ограничений часто снижает способности к рассуждению LLM'ов. В данной работе мы в первую очередь предоставляем теоретическое объяснение того, почему ограничение выходных данных LLM'ов до очень строгих грамматик, позволяющих только синтаксически правильные конечные ответы, снижает способности к рассуждению модели. Во-вторых, мы демонстрируем, что, дополнив грамматику вывода тщательно разработанными дополнительными правилами, всегда можно сохранить способности к рассуждению LLM'ов, обеспечивая синтаксическую и семантическую корректность в их выходных данных. Основываясь на этих теоретических идеях, мы предлагаем алгоритм декодирования с усилением рассуждений, CRANE, который эффективно балансирует корректность ограниченной генерации с гибкостью неконтролируемой генерации. Эксперименты на нескольких LLM'ах с открытым исходным кодом и бенчмарках показывают, что CRANE значительно превосходит как стратегии ограниченного декодирования нового поколения, так и стандартное неконтролируемое декодирование, демонстрируя улучшение точности на уровне до 10% по сравнению с базовыми показателями на сложных символьных бенчмарках рассуждения GSM-symbolic и FOLIO.
Мы исследуем возникновение интуитивного понимания физики в универсальных глубоких нейронных сетях, обученных предсказывать замаскированные области в естественных видеозаписях. Используя метод нарушения ожиданий, мы обнаруживаем, что модели предсказания видео, обученные прогнозировать результаты в изученном пространстве представлений, демонстрируют понимание различных свойств интуитивной физики, таких как постоянство объектов и согласованность формы. В то же время, модели предсказания видео в пространстве пикселей и мультимодальные крупные языковые модели, которые рассуждают через текст, показывают результаты, близкие к случайным. Наше сравнение этих архитектур показывает, что совместное изучение абстрактного пространства представлений при предсказании отсутствующих частей сенсорного ввода, аналогично предсказательному кодированию, достаточно для приобретения понимания интуитивной физики, и что даже модели, обученные на одной неделе уникальных видеозаписей, показывают результаты выше случайных. Это ставит под сомнение идею о том, что базовые знания — набор врожденных систем для понимания мира — должны быть жестко запрограммированы для развития понимания интуитивной физики.
Иерархия инструкций, которая устанавливает порядок приоритетов от системных сообщений к пользовательским, истории диалогов и выводам инструментов, играет ключевую роль в обеспечении согласованного и безопасного поведения языковых моделей (ЯМ). Несмотря на её важность, этой теме уделяется недостаточно внимания, а также отсутствуют комплексные эталоны для оценки способности моделей следовать иерархии инструкций. Мы устраняем этот пробел, представляя IHEval — новый эталон, включающий 3,538 примеров по девяти задачам, охватывающим случаи, когда инструкции разных приоритетов либо согласуются, либо конфликтуют. Наша оценка популярных ЯМ выявила их трудности в распознавании приоритетов инструкций. Все протестированные модели демонстрируют резкое снижение производительности при столкновении с конфликтующими инструкциями по сравнению с их исходной способностью следовать инструкциям. Более того, наиболее конкурентоспособная модель с открытым исходным кодом достигает лишь 48% точности в разрешении таких конфликтов. Наши результаты подчеркивают необходимость целенаправленной оптимизации в будущем развитии ЯМ.
Sailor2 представляет собой семейство передовых многоязычных языковых моделей для языков Юго-Восточной Азии (ЮВА), доступных в размерах 1B, 8B и 20B для различных приложений. Основанная на Qwen2.5, модель Sailor2 проходит непрерывное предварительное обучение на 500 миллиардах токенов (400 миллиардов специфичных для ЮВА и 100 миллиардов повторяющихся токенов) для поддержки 13 языков ЮВА, сохраняя при этом владение китайским и английским языками. Модель Sailor2-20B демонстрирует 50-50 соотношение побед против GPT-4o на языках ЮВА. Мы также предоставляем подробное руководство по эффективной разработке многоязычной модели, охватывающее пять ключевых аспектов: подготовка данных, предварительное обучение, пост-обучение, настройка модели и оценка. Мы надеемся, что модель Sailor2 (лицензия Apache 2.0) будет способствовать развитию языков в регионе ЮВА, а руководство Sailor2 вдохновит исследователей на создание более инклюзивных языковых моделей для других недостаточно охваченных языков.
Крупные языковые модели (LLM) сталкиваются с проблемами галлюцинаций и устаревших знаний из-за их зависимости от статических обучающих данных. Метод генерации с усилением поиска (RAG) смягчает эти проблемы за счёт интеграции внешней динамической информации, что улучшает фактическую и актуальную основу. Последние достижения в области мультимодального обучения привели к разработке мультимодального RAG, который включает несколько модальностей, таких как текст, изображения, аудио и видео, для улучшения генерируемых результатов. Однако кросс-модальное согласование и рассуждение создают уникальные вызовы для мультимодального RAG, отличая его от традиционного одномодального RAG. Данный обзор предлагает структурированный и всесторонний анализ систем мультимодального RAG, охватывая наборы данных, метрики, бенчмарки, оценку, методологии и инновации в области поиска, слияния, усиления и генерации. Мы подробно рассматриваем стратегии обучения, улучшения устойчивости и функции потерь, а также исследуем различные сценарии мультимодального RAG. Кроме того, мы обсуждаем открытые вызовы и будущие направления исследований для поддержки прогресса в этой развивающейся области. Этот обзор закладывает основу для создания более мощных и надёжных ИИ-систем, эффективно использующих мультимодальные динамические внешние базы знаний. Ресурсы доступны по адресу: https://github.com/llm-lab-org/Multimodal-RAG-Survey.
Замечательный успех парадигмы авторегрессии привел к значительному прогрессу в моделях многомодального крупномасштабного языка (MLLM), с мощными моделями, такими как Show-o, Transfusion и Emu3, достигающими значительных успехов в объединенном понимании и генерации изображений. Впервые мы выявляем общее явление: способности понимания MLLM обычно сильнее, чем их способности к генерации, с значительным разрывом между ними. Основываясь на этом понимании, мы предлагаем HermesFlow, простую, но общую структуру, разработанную для плавного преодоления разрыва между пониманием и генерацией в MLLM. Конкретно, мы берем гомологичные данные в качестве входных данных для курирования гомологичных предпочтений данных как для понимания, так и для генерации. Через парное DPO и самоиграющую оптимизацию, HermesFlow эффективно выравнивает многомодальное понимание и генерацию, используя гомологичные предпочтения данных. Обширные эксперименты демонстрируют значительное превосходство нашего подхода над предыдущими методами, особенно в уменьшении разрыва между многомодальным пониманием и генерацией. Эти результаты подчеркивают потенциал HermesFlow как общей структуры выравнивания для моделей многомодальных фундаментов следующего поколения. Код: https://github.com/Gen-Verse/HermesFlow
Мы предлагаем метод Diffusion-Sharpening, подход к настройке fein-tuning, который улучшает выравнивание на уровне ниже путем оптимизации траекторий выборки. Существующие методы настройки fein-tuning на основе RL сосредотачиваются на одиночных временных шагах обучения и пренебрегают выравниванием на уровне траектории, в то время как недавние методы оптимизации траекторий выборки влекут значительные затраты на NFE вывода. Diffusion-Sharpening преодолевает это, используя каркас интеграла пути для выбора оптимальных траекторий во время обучения, опираясь на обратную связь по вознаграждению и амортизируя затраты вывода. Наш метод демонстрирует превосходную эффективность обучения с более быстрой сходимостью и лучшей эффективностью вывода без необходимости дополнительных NFE. Обширные эксперименты показывают, что Diffusion-Sharpening превосходит методы настройки fein-tuning на основе RL (например, Diffusion-DPO) и методы оптимизации траекторий выборки (например, Inference Scaling) по разнообразным метрикам, включая выравнивание текста, композиционные возможности и предпочтения человека, предлагая масштабируемое и эффективное решение для будущей настройки модели диффузии. Код: https://github.com/Gen-Verse/Diffusion-Sharpening
Системные сообщения играют ключевую роль во взаимодействии с большими языковыми моделями (LLM), часто служа как подсказки для начала разговоров. Через системные сообщения пользователи могут назначать конкретные роли, выполнять задачи, включать фоновую информацию, указывать различные форматы вывода и стили коммуникации. Несмотря на такую гибкость, общедоступные данные часто лишены системных сообщений и подвержены строгим лицензионным ограничениям в индустриальной сфере. Ручная разметка общедоступных данных с системными сообщениями, соответствующими инструкциям пользователя, требует значительных ресурсов. В свете таких вызовов наша работа представляет SysGen, конвейер для генерации системных сообщений с лучшими ответами ассистента, выровненными по надзорному натаскивающему набору данных без системных сообщений. Обучение на данных SysGen продемонстрировало существенное улучшение соответствия ответов модели системным сообщениям и инструкциям пользователя, что подтверждается на различных моделях с открытым исходным кодом на бенчмарке Multifacet, сохраняя минимальное воздействие на другие неизвестные бенчмарки, такие как Open LLM Leaderboard 2. Наше качественное анализирует важность разнообразных системных сообщений для обеспечения лучшей адаптивности в различных контекстах.
Недавние достижения в системах на основе LLM для мультиагентных систем (LLM-MA) показали потенциал, однако остаются значительные проблемы в управлении коммуникацией и усовершенствованием при совместной работе агентов над сложными задачами. В данной статье мы предлагаем Talk Structurally, Act Hierarchically (TalkHier), новую концепцию, которая вводит структурированный протокол коммуникации для обменов контекстно насыщенной информацией и иерархическую систему усовершенствования для решения проблем, таких как неправильные выводы, ложные утверждения и предвзятость. TalkHier превосходит различные типы SoTA, включая модель масштабирования выводов (OpenAI-o1), мультиагентные модели с открытым исходным кодом (например, AgentVerse) и стратегии большинственного голосования на текущих LLM и одноагентных базовых моделях (например, ReAct, GPT4o), на разнообразных задачах, включая ответы на вопросы в открытой области, доменно-специфическое селективное опросное и практическое создание рекламных текстов. Эти результаты подчеркивают его потенциал для установления нового стандарта для систем LLM-MA, открывая путь к более эффективным, адаптивным и совместным мультиагентным структурам. Код доступен по ссылке https://github.com/sony/talkhier.
Недавние успехи в области крупных мультимодальных моделей (LMM) открыли перспективы для создания агентов, способных автономно выполнять сложные веб-задачи. Хотя открытые LMM-агенты достигли значительных успехов в оффлайн-бенчмарках, их производительность всё ещё существенно отстаёт от человеческого уровня в более реалистичных онлайн-сценариях. Основным ограничением является отсутствие разнообразных и масштабных наборов данных на уровне траекторий в различных доменах, сбор которых требует значительных затрат. В данной работе мы решаем эту проблему, разработав масштабируемую методику для синтеза крупнейшего и наиболее разнообразного набора данных на уровне траекторий, содержащего более 94K успешных мультимодальных веб-траекторий, охватывающих 49K уникальных URL-адресов, 720K скриншотов и 33M веб-элементов. В частности, мы используем обширное веб-исследование и уточнение для получения разнообразных намерений задач. Средняя стоимость составляет 28 центов за успешную траекторию, что делает её доступной для широкого круга пользователей. Используя этот набор данных, мы обучаем Explorer — мультимодального веб-агента — и демонстрируем высокую производительность как в оффлайн, так и в онлайн бенчмарках, таких как Mind2Web-Live, Multimodal-Mind2Web и MiniWob++. Кроме того, наши эксперименты подчёркивают, что масштабирование данных является ключевым фактором для улучшения возможностей веб-агентов. Мы надеемся, что это исследование сделает передовые исследования на основе LMM-агентов более доступными для широкого круга специалистов.
Несмотря на почти идеальные результаты в искусственных оценках, эффективность редактирования моделей в реальных приложениях остается неисследованной. Чтобы устранить этот пробел, мы предлагаем изучить редактирование моделей в задачах ответов на вопросы (QA), установив строгую практику оценки для определения эффективности методов редактирования в исправлении ошибок больших языковых моделей (LLM). Наш подход включает QAEdit — новый бенчмарк, созданный на основе популярных наборов данных QA, и стандартизированную структуру оценки. Наши эксперименты с единичным редактированием показывают, что текущие методы редактирования работают значительно хуже, чем сообщалось ранее (38,5% против ~96%). С помощью анализа модулей и контролируемых экспериментов мы демонстрируем, что это снижение производительности связано с проблемами в практике оценки в предыдущих исследованиях редактирования. Одной из ключевых проблем является неподходящее использование teacher forcing при тестировании, которое предотвращает распространение ошибок путем подачи эталонных токенов (недоступных в реальных сценариях) на вход. Кроме того, мы моделируем реальное развертывание с помощью последовательного редактирования, показывая, что текущие подходы терпят крах уже после 1000 правок. Наш анализ представляет собой фундаментальный пересмотр как применимости существующих методов редактирования моделей в реальных условиях, так и практик их оценки, а также устанавливает строгую структуру оценки с ключевыми инсайтами для продвижения надежных и практических исследований в области редактирования моделей.
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в задачах, связанных с кодом, таких как понимание кода и генерация кода. Однако одинаково важный, но недостаточно исследованный вопрос заключается в том, могут ли LLM служить в качестве универсальных заменителей исполнителей кода, чтобы предсказывать вывод и поведение программы без ее фактического запуска. Для систематического изучения этой возможности мы представляем SURGE, обширный бенчмарк, охватывающий восемь ключевых аспектов: задачи многих языков программирования, проблемы программирования на уровне соревнований, анализ кода на уровне репозитория, вычисления в области научных исследований высокой стоимости, алгоритмы с высокой вычислительной сложностью, анализ ошибок в коде, программы, зависящие от конкретных компиляторов или сред выполнения, и формальная математическая проверка доказательств. Мы оцениваем несколько открытых и закрытых LLM на SURGE и проводим исследование масштабирования для анализа влияния размера модели и масштаба обучающих данных на точность заменительного исполнения. Кроме того, мы классифицируем ошибки прогнозирования модели и исследуем потенциальные области для улучшения. Наши результаты показывают, что хотя LLM могут предсказывать результаты выполнения кода в определенных случаях, они проявляют ограничения в универсальном заменительном исполнении. Это исследование предоставляет эмпирические понимания о возможности использования LLM в качестве заменителей исполнителей кода. Код и набор данных доступны по ссылке https://github.com/Imbernoulli/SURGE.
С бурным ростом создания 3D-контента возникает всё большая потребность в автоматическом преобразовании статических 3D-моделей в версии, готовые к артикуляции и поддерживающие реалистичную анимацию. Традиционные подходы в значительной степени полагаются на ручную аннотацию, что является трудоёмким и затратным по времени процессом. Более того, отсутствие крупномасштабных бенчмарков сдерживало развитие решений на основе обучения. В данной работе мы представляем MagicArticulate — эффективный фреймворк, который автоматически преобразует статические 3D-модели в ресурсы, готовые к артикуляции. Наши ключевые вклады заключаются в трёх аспектах. Во-первых, мы представляем Articulation-XL — крупномасштабный бенчмарк, содержащий более 33 тысяч 3D-моделей с высококачественными аннотациями артикуляции, тщательно отобранными из Objaverse-XL. Во-вторых, мы предлагаем новый метод генерации скелетов, который формулирует задачу как проблему моделирования последовательностей, используя авторегрессивный трансформер для естественного обработки различного количества костей или суставов в скелетах и их внутренних зависимостей в различных 3D-моделях. В-третьих, мы предсказываем веса скиннинга с помощью функционального диффузионного процесса, который учитывает приоритеты объёмных геодезических расстояний между вершинами и суставами. Многочисленные эксперименты демонстрируют, что MagicArticulate значительно превосходит существующие методы в различных категориях объектов, обеспечивая высококачественную артикуляцию, которая позволяет создавать реалистичную анимацию. Страница проекта: https://chaoyuesong.github.io/MagicArticulate.
Недавние достижения в оптимизации рассуждений значительно улучшили возможности крупных языковых моделей (LLM), однако существующие усилия по улучшению рассуждений ограничивались решением математических задач и фокусировались на визуальных графических входах, игнорируя более широкие применения в общем понимании видео. В данной статье предлагается video-SALMONN-o1, первая открытая модель языка с улучшенными рассуждениями для аудио-визуального понимания видео задач общего характера. Для улучшения ее рассуждательных способностей мы разработали набор данных, требующий интенсивного использования рассуждений, включающий сложные аудио-визуальные вопросы с пошаговыми решениями. Мы также предлагаем оптимизацию прямого предпочтения процесса (pDPO), которая использует контрастный выбор шага для достижения эффективного моделирования вознаграждения на уровне шага, адаптированного для мультимодальных входов. Кроме того, мы представляем RivaBench, первый бенчмарк интенсивного использования рассуждений в понимании видео, включающий более 4 000 высококачественных вопросов-ответов, отобранных экспертами, по сценариям, таким как стендап-комедия, академические презентации и синтетическое обнаружение видео. video-SALMONN-o1 достигает улучшения точности на 3-8% по сравнению с базовым уровнем LLaVA-OneVision на различных видео-бенчмарках по рассуждениям. Кроме того, pDPO достигает улучшения на 6-8% по сравнению с моделью обучения с учителем на бенчмарке RivaBench. Улучшенные рассуждения позволяют video-SALMONN-o1 обнаруживать синтетические видео в режиме нулевой настройки.
В данной статье представлен Model-guidance (MG) — новый подход к обучению диффузионных моделей, который устраняет необходимость в широко используемом Classifier-free guidance (CFG). Наш инновационный метод выходит за рамки стандартного моделирования только распределения данных, включая в себя апостериорную вероятность условий. Предложенная техника основана на идее CFG, проста в реализации, но эффективна, что делает её модулем plug-and-play для существующих моделей. Наш метод значительно ускоряет процесс обучения, удваивает скорость вывода и достигает исключительного качества, сопоставимого и даже превосходящего современные диффузионные модели с CFG. Многочисленные эксперименты демонстрируют эффективность, производительность и масштабируемость метода на различных моделях и наборах данных. В заключение мы устанавливаем новое состояние искусства на бенчмарке ImageNet 256 с показателем FID, равным 1.34. Наш код доступен по адресу https://github.com/tzco/Diffusion-wo-CFG.
Крупные языковые модели демонстрируют впечатляющие способности в различных областях, особенно в математике и логическом мышлении. Однако текущие оценки упускают из виду физическое рассуждение — сложную задачу, требующую применения физических теорем и ограничений. Мы представляем PhysReason, набор из 1200 задач, включающий вопросы на основе знаний (25%) и задачи на рассуждение (75%), где последние разделены на три уровня сложности (легкий, средний, сложный). Примечательно, что задачи требуют в среднем 8,1 шага для решения, а сложные задачи — 15,6, что отражает сложность физического рассуждения. Мы предлагаем Фреймворк автоматической оценки физических решений, включающий эффективную оценку на уровне ответов и всестороннюю оценку на уровне шагов. Лучшие модели, такие как Deepseek-R1, Gemini-2.0-Flash-Thinking и o3-mini-high, показывают менее 60% на уровне ответов, при этом производительность снижается от вопросов на знания (75,11%) до сложных задач (31,95%). С помощью оценки на уровне шагов мы выявили четыре ключевых узких места: Применение физических теорем, Понимание физических процессов, Вычисления и Анализ физических условий. Эти результаты позиционируют PhysReason как новый и всеобъемлющий бенчмарк для оценки способностей крупных языковых моделей к физическому рассуждению. Наш код и данные будут опубликованы на https://dxzxy12138.github.io/PhysReason.
Text-to-SQL направлен на преобразование естественноязыковых вопросов в исполняемые SQL-запросы. В то время как предыдущие подходы, такие как скелетно-маскированный выбор, продемонстрировали высокую производительность, извлекая похожие обучающие примеры для направления крупных языковых моделей (LLM), они испытывают трудности в реальных сценариях, где такие примеры недоступны. Для преодоления этого ограничения мы предлагаем самоувеличение в контекстном обучении с тонким выбором примеров для Text-to-SQL (SAFE-SQL), новую структуру, которая улучшает генерацию SQL путем создания и фильтрации самоувеличенных примеров. SAFE-SQL сначала подталкивает LLM к созданию нескольких примеров Text-to-SQL, соответствующих тестовому вводу. Затем SAFE-SQL фильтрует эти примеры через три оценки релевантности, создавая высококачественные примеры контекстного обучения. Используя самосгенерированные примеры, SAFE-SQL превосходит предыдущие нулевые и малочисленные Text-to-SQL структуры, достигая более высокой точности выполнения. Особенно наш подход обеспечивает дополнительный прирост производительности в дополнительно сложных и невидимых сценариях, где обычные методы часто терпят неудачу.
Мы представляем Dyve — динамический верификатор процессов, который улучшает обнаружение ошибок рассуждений в больших языковых моделях за счет интеграции быстрого и медленного мышления, вдохновленного теорией систем Канемана. Dyve адаптивно применяет немедленное подтверждение на уровне токенов (Система 1) для простых шагов и всесторонний анализ (Система 2) для сложных. Используя новую технику пошагового консенсус-фильтрованного контроля процессов, сочетающую оценку методом Монте-Карло с оценкой на основе языковых моделей, Dyve извлекает высококачественные сигналы контроля из зашумленных данных. Экспериментальные результаты на ProcessBench и наборе данных MATH подтверждают, что Dyve значительно превосходит существующие процессно-ориентированные верификаторы и повышает производительность в настройках Best-of-N.
Латентные генеративные модели стали ведущим подходом для синтеза изображений высокого качества. Эти модели используют автоэнкодер для сжатия изображений в латентное пространство, за которым следует генеративная модель, изучающая распределение в этом пространстве. Мы обнаружили, что существующие автоэнкодеры не обладают эквивариантностью к семантически сохраняющим преобразованиям, таким как масштабирование и вращение, что приводит к сложным латентным пространствам, ухудшающим генеративную производительность. Для решения этой проблемы мы предлагаем EQ-VAE — простой метод регуляризации, который обеспечивает эквивариантность в латентном пространстве, снижая его сложность без ухудшения качества реконструкции. Путем тонкой настройки предобученных автоэнкодеров с использованием EQ-VAE мы улучшаем производительность нескольких современных генеративных моделей, включая DiT, SiT, REPA и MaskGIT, достигая ускорения в 7 раз для DiT-XL/2 всего за пять эпох тонкой настройки SD-VAE. EQ-VAE совместим как с непрерывными, так и с дискретными автоэнкодерами, что делает его универсальным улучшением для широкого спектра латентных генеративных моделей. Страница проекта и код: https://eq-vae.github.io/.
Использование математических моделей больших языков (LLM) для генерации доказательств является фундаментальной темой в исследованиях LLM. Мы утверждаем, что способность текущих LLM доказывать утверждения в значительной степени зависит от того, сталкивались ли они с соответствующим процессом доказательства во время обучения. Эта зависимость ограничивает их глубокое понимание математических теорем и связанных концепций. Вдохновленные педагогическим методом "доказательства контрпримерами", широко используемым в образовании по математике, наша работа направлена на улучшение способности LLM к математическому мышлению и доказательствам через контрпримеры. В частности, мы вручную создаем высококачественный университетский математический бенчмарк, CounterMATH, который требует от LLM доказать математические утверждения, предоставляя контрпримеры, тем самым оценивая их понимание математических концепций. Кроме того, мы разрабатываем фреймворк инженерии данных для автоматического получения обучающих данных для дальнейшего улучшения модели. Обширные эксперименты и детальные анализы показывают, что CounterMATH является сложным, что указывает на недостаточные возможности LLM, таких как OpenAI o1, в доказательствах на основе контрпримеров. Более того, наше исследование в области обучения моделей показывает, что укрепление способностей LLM к концептуальному мышлению на основе контрпримеров критически важно для улучшения их общих математических возможностей. Мы считаем, что наша работа предлагает новые перспективы для сообщества математических LLM.
Существующие языковые модели испытывают трудности с программированием, ориентированным на доказательства, из-за недостатка данных, что проявляется двумя основными способами: (1) отсутствием достаточных корпусов для языков программирования, ориентированных на доказательства, таких как F*, и (2) отсутствием масштабных реализаций программ, ориентированных на доказательства на уровне проекта, способных обучить модель сложному процессу рассуждения при выполнении программирования, ориентированного на доказательства. Мы представляем первый метод синтетического увеличения данных для программирования на уровне проекта, ориентированного на доказательства, как для генерации, так и для исправления. Наш метод решает проблему недостатка данных путем синтеза базовых задач программирования, ориентированных на доказательства, для владения этим языком; включения разнообразных данных кодирования для вызова способности к рассуждению и создания новых доказательств и данных по исправлению в существующих репозиториях. Этот подход позволяет языковым моделям как синтезировать, так и исправлять доказательства для кода на уровне функций и репозиториев. Мы показываем, что наша донастроенная модель с 14 миллиардами параметров, PoPilot, может превзойти производительность моделей, превосходящих GPT-4o в программировании на уровне проекта, ориентированного на доказательства, на 64% относительной маржой, и может улучшить производительность GPT-4o на 54% путем исправления ее выводов по сравнению с самостоятельным исправлением GPT-4o.
Для инкубации передовых крупных языковых моделей (LLM) были тщательно подготовлены обширные данные высокого качества, включая необработанные тексты для предварительного обучения и аннотации для последующего обучения. В отличие от этого, для извлечения информации (IE) данные для предварительного обучения, такие как последовательности с метками BIO, сложно масштабировать. Мы показываем, что модели IE могут использовать ресурсы LLM, переформулируя предсказание следующего токена в извлечение токенов, уже присутствующих в контексте. В частности, наш предложенный парадигма извлечения следующих токенов (NTE) обучает универсальную модель IE, Cuckoo, с 102,6 млн извлекаемых данных, преобразованных из данных для предварительного и последующего обучения LLM. В условиях малого количества обучающих примеров Cuckoo эффективно адаптируется к традиционному и сложному извлечению информации по инструкциям с лучшей производительностью, чем у существующих предварительно обученных моделей IE. В качестве "попутчика" Cuckoo естественным образом развивается вместе с продвижениями в подготовке данных LLM, получая преимущества от улучшений в процессах обучения LLM без дополнительных ручных усилий.
Память играет ключевую роль в способности агентов решать сложные задачи с временными и пространственными зависимостями. Хотя многие алгоритмы обучения с подкреплением (RL) включают механизмы памяти, в этой области отсутствует универсальный бенчмарк для оценки возможностей памяти агентов в различных сценариях. Этот пробел особенно заметен в задачах манипуляции на столе для роботов, где память необходима для решения задач с частичной наблюдаемостью и обеспечения устойчивой производительности, однако стандартизированные бенчмарки отсутствуют. Чтобы устранить этот пробел, мы представляем MIKASA (Memory-Intensive Skills Assessment Suite for Agents) — комплексный бенчмарк для RL с акцентом на память, который включает три ключевых вклада: (1) мы предлагаем всеобъемлющую классификационную структуру для задач RL, требующих интенсивного использования памяти, (2) мы создаем MIKASA-Base — унифицированный бенчмарк, позволяющий систематически оценивать агентов с улучшенной памятью в разнообразных сценариях, и (3) разрабатываем MIKASA-Robo — новый бенчмарк из 32 тщательно разработанных задач, оценивающих возможности памяти в задачах манипуляции на столе для роботов. Наши вклады создают унифицированную основу для продвижения исследований в области RL с акцентом на память, способствуя разработке более надежных систем для реальных приложений. Код доступен по адресу https://sites.google.com/view/memorybenchrobots/.
Крупные языковые модели (LLM) с возможностью вызова API позволили создавать эффективные языковые агенты (LA), одновременно революционизируя традиционную парадигму целеориентированного диалога (TOD). Однако современные подходы сталкиваются с критической дилеммой: системы TOD часто обучаются на ограниченном наборе целевых API, требуя новых данных для поддержания качества при взаимодействии с новыми сервисами, в то время как LA не обучаются для сохранения намерений пользователя в многоходовых диалогах. Поскольку как устойчивое управление многоходовыми диалогами, так и продвинутый вызов функций являются ключевыми для эффективных диалоговых агентов, мы оцениваем эти навыки на трех популярных бенчмарках: MultiWOZ 2.4 (TOD), BFCL V3 (LA) и API-Bank (LA). Наш анализ показывает, что специализированные подходы преуспевают в одной области, но уступают в другой. Чтобы преодолеть этот разрыв, мы представляем CALM (Conversational Agentic Language Model) — унифицированный подход, объединяющий как диалоговые, так и агентские возможности. Мы создали CALM-IT, тщательно разработанный мультизадачный набор данных, который сочетает многоходовое рассуждение ReAct с использованием сложных API. Используя CALM-IT, мы обучаем три модели: CALM 8B, CALM 70B и CALM 405B, которые превосходят лучшие специализированные модели, включая GPT-4o, на всех трех бенчмарках.
Данная работа представляет ILIAS — новый тестовый набор данных для задач поиска изображений на уровне экземпляров в масштабе. Он предназначен для оценки способности современных и будущих базовых моделей и методов поиска распознавать конкретные объекты. Основные преимущества перед существующими наборами данных включают масштабность, разнообразие доменов, точные эталонные данные и производительность, далекую от насыщения. ILIAS содержит запросы и положительные изображения для 1 000 экземпляров объектов, собранных вручную для отражения сложных условий и разнообразных областей. Масштабный поиск осуществляется среди 100 миллионов отвлекающих изображений из YFCC100M. Чтобы избежать ложных отрицательных результатов без дополнительных усилий по аннотированию, мы включаем только объекты запросов, появление которых подтверждено после 2014 года, то есть даты составления YFCC100M. Проведено обширное тестирование, в ходе которого сделаны следующие наблюдения: i) модели, дообученные на конкретных доменах, таких как достопримечательности или товары, показывают отличные результаты в этих доменах, но терпят неудачу на ILIAS; ii) обучение линейного адаптационного слоя с использованием мультидоменного классового надзора приводит к улучшению производительности, особенно для моделей, работающих с визуальными и текстовыми данными; iii) локальные дескрипторы при повторном ранжировании поиска остаются ключевым компонентом, особенно в условиях сильного фонового шума; iv) производительность базовых моделей, работающих с текстом и изображениями, при поиске по тексту удивительно близка к случаю поиска по изображению. Веб-сайт: https://vrg.fel.cvut.cz/ilias/
Широкое распространение больших языковых моделей и генеративного ИИ в онлайн-медиа усилило потребность в эффективной автоматизированной проверке фактов, чтобы помочь специалистам справляться с растущим объемом и усложнением дезинформации. Сложный характер проверки фактов требует, чтобы автоматизированные системы предоставляли объяснения, позволяющие специалистам тщательно анализировать их результаты. Однако остается неясным, как эти объяснения должны соответствовать процессам принятия решений и рассуждений специалистов, чтобы быть эффективно интегрированными в их рабочие процессы. Посредством полуструктурированных интервью с профессионалами в области проверки фактов мы устраняем этот пробел, выполняя следующие шаги: (i) описываем, как специалисты оценивают доказательства, принимают решения и объясняют свои процессы; (ii) исследуем, как специалисты используют автоматизированные инструменты на практике; и (iii) определяем требования специалистов к объяснениям, предоставляемым автоматизированными инструментами проверки фактов. Результаты исследования выявляют неудовлетворенные потребности в объяснениях и определяют важные критерии для воспроизводимых объяснений, которые отслеживают путь рассуждений модели, ссылаются на конкретные доказательства и выделяют неопределенности и пробелы в информации.
Данная статья исследует математические способности крупных языковых моделей (LLM) с использованием 50 недавно созданных школьных текстовых задач уровня старших классов. В отличие от предыдущих исследований, сосредотачивающихся исключительно на правильности ответов, мы тщательно анализируем как конечные ответы, так и шаги решения, чтобы выявить неудачи в рассуждениях. Оценивая восемь передовых моделей, включая Mixtral, Llama, Gemini, GPT-4o и варианты OpenAI o1, мы обнаружили, что, хотя более новые модели (например, o3-mini, deepseek-r1) достигают более высокой точности, все модели допускают ошибки в пространственном мышлении, стратегическом планировании и арифметике, иногда давая правильные ответы за счет ошибочной логики. Распространенные виды неудач включают неподтвержденные предположения, чрезмерную зависимость от числовых закономерностей и трудности в переводе физического интуитивного понимания в математические шаги. Ручной анализ показывает, что модели испытывают затруднения с задачами, требующими многократного вывода или знаний о реальном мире, несмотря на широкие математические знания. Наши результаты подчеркивают важность оценки процессов рассуждения, а не только ответов, и предостерегают от переоценки профессионализма LLM в решении проблем. Исследование выявляет постоянные пробелы в обобщающих способностях LLM, подчеркивая необходимость целенаправленных улучшений в структурированных рассуждениях и обработке ограничений.
В данной статье подвергается сомнению недавно сложившаяся парадигма в прогнозировании атомных свойств, которая связывает прогресс с увеличением размеров наборов данных и вычислительных ресурсов. Мы демонстрируем, что предварительное обучение на тщательно отобранном, релевантном для задачи наборе данных может соответствовать или даже превосходить крупномасштабное предварительное обучение, при этом используя лишь 1/24 вычислительных затрат. Мы представляем Индекс Химического Сходства (Chemical Similarity Index, CSI) — новый метрический подход, вдохновленный расстоянием Фреше в компьютерном зрении, который количественно оценивает соответствие между наборами данных для предварительного обучения и целевыми задачами для молекулярных графов. Выбирая наиболее релевантный набор данных с минимальным расстоянием CSI, мы показываем, что модели, предварительно обученные на меньшем, целенаправленном наборе данных, стабильно превосходят модели, обученные на крупных, смешанных наборах данных, таких как JMP, даже если эти большие наборы включают релевантные данные. Контринтуитивно, мы также обнаруживаем, что бездумное добавление большего объема данных может ухудшить производительность модели, если дополнительные данные плохо соответствуют поставленной задаче. Наши результаты подчеркивают, что качество часто превосходит количество при предварительном обучении для прогнозирования атомных свойств.
Функции влияния предоставляют важные инсайты в процесс обучения моделей, однако существующие методы страдают от высоких вычислительных затрат и ограниченной обобщаемости. В частности, в последних работах предложены различные метрики и алгоритмы для расчета влияния данных с использованием языковых моделей, которые плохо масштабируются на большие модели и наборы данных. Это связано с дорогостоящими прямыми и обратными проходами, необходимыми для вычислений, значительными требованиями к памяти для хранения крупных моделей и слабой обобщаемостью оценок влияния на новые данные. В данной работе мы исследуем использование небольших нейронных сетей — которые мы называем InfluenceNetwork — для оценки значений влияния, достигая сокращения затрат до 99%. Наши оценки показывают, что значения влияния могут быть оценены с помощью моделей, размер которых составляет всего 0,0027% от полных языковых моделей (мы используем версии на 7B и 8B параметров). Мы применяем наш алгоритм оценки значений влияния (названный NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) к задаче выбора подмножества данных для тонкой настройки на общих инструкциях. В нашем исследовании мы включаем четыре современных функции влияния и показываем, что NN-CIFT не уступает по производительности оригинальным функциям влияния, несмотря на значительное ускорение. Мы предоставляем детальный анализ гиперпараметров NN-CIFT. Код нашего метода доступен по ссылке: https://github.com/agarwalishika/NN-CIFT.
Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) изучают представления слов, которые демонстрируют нежелательную, но малоизученную особенность — анизотропию. В данной статье мы утверждаем, что второй момент в оптимизаторе Adam является причиной анизотропных эмбеддингов, и предлагаем модифицированный оптимизатор под названием Coupled Adam для смягчения этой проблемы. Наши эксперименты показывают, что Coupled Adam значительно улучшает качество эмбеддингов, а также приводит к лучшей производительности как на предварительных, так и на последующих задачах при работе с достаточно большими наборами данных.
Большие языковые модели (LLM) сделали значительные успехи в генерации естественного языка, но часто сталкиваются с трудностями в задачах, требующих точных расчетов и структурного анализа. В данной статье исследуется производительность передовых LLM на задачах измерения сложности языка, путем вычисления метрики удобочитаемости LIX и среднего расстояния зависимости (ADD). Используя эссе старшей школы и университетского уровня на шведском языке, мы оцениваем способности моделей вычислять оценки LIX и выполнять синтаксический анализ, сравнивая их результаты с установленными эталонами. Наши результаты показывают, что хотя все модели проявляют некоторую способность к выполнению этих задач, ChatGPT-o1-mini демонстрирует наибольшую последовательность, достигая наивысшей точности как в вычислении LIX, так и в синтаксическом анализе. Кроме того, мы наблюдаем сильную значимую корреляцию -0.875 p 0.026 (N=6) между точностью моделей в вычислении LIX и их общей производительностью на бенчмарке Massive Multitask Language Understanding (MMLU). Эти результаты позволяют предположить, что способности измерения сложности языка могут служить шумными нулевыми приближениями для оценки общих возможностей LLM, предоставляя практический метод оценки модели без необходимости обширных наборов данных для тестирования.
Обнаружение текстов, сгенерированных крупными языковыми моделями (LLM), может привести к серьезным ошибкам из-за неверных решений, таких как подрыв академического достоинства студентов. Поэтому обнаружение текстов LLM должно обеспечивать интерпретируемость решения, что помогает пользователям оценить, насколько надежно его предсказание. Когда люди проверяют, написан ли текст человеком или сгенерирован LLM, они интуитивно исследуют, с каким из них текст имеет больше схожих фрагментов. Однако существующие интерпретируемые детекторы не соответствуют процессу принятия решений человеком и не предоставляют доказательств, которые пользователи могли бы легко понять. Чтобы устранить этот разрыв, мы представляем ExaGPT — интерпретируемый подход к обнаружению, основанный на процессе принятия решений человеком для проверки происхождения текста. ExaGPT идентифицирует текст, проверяя, имеет ли он больше схожих фрагментов с текстами, написанными человеком, или с текстами, сгенерированными LLM, из хранилища данных. Этот подход может предоставить примеры схожих фрагментов, которые способствуют принятию решения для каждого фрагмента текста, в качестве доказательства. Наша оценка с участием людей показывает, что предоставление примеров схожих фрагментов способствует более эффективному суждению о правильности решения, чем существующие интерпретируемые методы. Более того, обширные эксперименты в четырех областях и с тремя генераторами демонстрируют, что ExaGPT значительно превосходит предыдущие мощные детекторы, достигая увеличения точности на +40,9 процентных пункта при уровне ложных срабатываний в 1%.