Ежедневно отобранные исследовательские статьи по ИИ с переводами
Рассуждения лежат в основе интеллекта, формируя способность принимать решения, делать выводы и обобщать знания в различных областях. В искусственном интеллекте, по мере того как системы всё чаще функционируют в открытых, неопределённых и мультимодальных средах, рассуждения становятся ключевыми для обеспечения устойчивого и адаптивного поведения. Крупные мультимодальные модели рассуждений (LMRMs) появились как перспективная парадигма, интегрирующая такие модальности, как текст, изображения, аудио и видео, для поддержки сложных способностей к рассуждению и стремясь к достижению всестороннего восприятия, точного понимания и глубокого анализа. По мере развития исследований мультимодальные рассуждения быстро эволюционировали от модульных, восприятие-ориентированных подходов к унифицированным, языко-центричным фреймворкам, которые обеспечивают более согласованное кросс-модальное понимание. Хотя настройка на инструкции и обучение с подкреплением улучшили способности моделей к рассуждению, значительные вызовы остаются в области омни-модальной генерализации, глубины рассуждений и агентного поведения. Для решения этих проблем мы представляем всесторонний и структурированный обзор исследований мультимодальных рассуждений, организованный вокруг четырёхэтапной дорожной карты развития, отражающей меняющиеся философии проектирования и возникающие возможности в этой области. Сначала мы рассматриваем ранние подходы, основанные на задачах-специфичных модулях, где рассуждения были неявно встроены в этапы представления, согласования и слияния. Затем мы анализируем современные методы, объединяющие рассуждения в мультимодальные LLM, с такими достижениями, как мультимодальная цепочка рассуждений (MCoT) и мультимодальное обучение с подкреплением, которые позволяют создавать более богатые и структурированные цепочки рассуждений. Наконец, опираясь на эмпирические данные из сложных бенчмарков и экспериментальных случаев OpenAI O3 и O4-mini, мы обсуждаем концептуальное направление нативных крупных мультимодальных моделей рассуждений (N-LMRMs), которые нацелены на поддержку масштабируемых, агентных и адаптивных рассуждений и планирования в сложных реальных условиях.
Мы представляем Flow-GRPO — первый метод, интегрирующий онлайн-обучение с подкреплением (RL) в модели потокового согласования. Наш подход использует две ключевые стратегии: (1) преобразование ODE в SDE, которое превращает детерминированное обыкновенное дифференциальное уравнение (ODE) в эквивалентное стохастическое дифференциальное уравнение (SDE), сохраняющее маргинальное распределение исходной модели на всех временных шагах, что позволяет проводить статистическую выборку для исследования в RL; и (2) стратегию сокращения шума, которая уменьшает количество шагов удаления шума при обучении, сохраняя при этом исходное количество шагов вывода, что значительно повышает эффективность выборки без ухудшения производительности. Эмпирически Flow-GRPO демонстрирует эффективность в различных задачах генерации изображений из текста. Для сложных композиций модель SD3.5, настроенная с помощью RL, генерирует почти идеальное количество объектов, пространственные отношения и детализированные атрибуты, повышая точность GenEval с 63% до 95%. В визуализации текста точность улучшается с 59% до 92%, что значительно повышает качество генерации текста. Flow-GRPO также достигает существенного прогресса в согласовании с человеческими предпочтениями. Примечательно, что практически не наблюдалось "взлома наград", то есть увеличение наград не происходило за счет снижения качества или разнообразия изображений, и оба параметра оставались стабильными в наших экспериментах.
Мы представляем LegoGPT — первый подход для генерации физически устойчивых моделей из кубиков LEGO по текстовым запросам. Для достижения этой цели мы создаем крупномасштабный набор данных физически устойчивых дизайнов LEGO вместе с их текстовыми описаниями и обучаем авторегрессивную языковую модель большого масштаба для предсказания следующего кубика через прогнозирование следующего токена. Чтобы повысить устойчивость получаемых конструкций, мы применяем эффективную проверку на валидность и физически осознанный откат во время авторегрессивного вывода, который отсекает невыполнимые предсказания токенов с использованием законов физики и ограничений сборки. Наши эксперименты показывают, что LegoGPT создает устойчивые, разнообразные и эстетически привлекательные дизайны LEGO, которые тесно соответствуют входным текстовым запросам. Мы также разрабатываем текстовый метод текстурирования LEGO для создания цветных и текстурированных моделей. Мы демонстрируем, что наши конструкции могут быть собраны вручную людьми и автоматически роботизированными манипуляторами. Мы также публикуем наш новый набор данных StableText2Lego, содержащий более 47 000 структур LEGO, представляющих более 28 000 уникальных 3D-объектов, сопровождаемых подробными описаниями, а также наш код и модели на сайте проекта: https://avalovelace1.github.io/LegoGPT/.
Оценка того, насколько хорошо крупная языковая модель (LLM) понимает человека, а не просто текст, остается открытой проблемой. Чтобы сократить этот разрыв, мы представляем Sentient Agent as a Judge (SAGE) — автоматизированную систему оценки, которая измеряет высшие формы социального познания LLM. SAGE реализует Sentient Agent, который симулирует человеческие эмоциональные изменения и внутренние мысли в процессе взаимодействия, обеспечивая более реалистичную оценку тестируемой модели в многоходовых диалогах. На каждом шаге агент анализирует (i) как изменяются его эмоции, (ii) что он чувствует и (iii) как ему следует ответить, формируя числовую траекторию эмоций и интерпретируемые внутренние мысли. Эксперименты на 100 сценариях поддерживающих диалогов показывают, что итоговый показатель Sentient Emotion Score сильно коррелирует с оценками по шкале Barrett-Lennard Relationship Inventory (BLRI) и метриками эмпатии на уровне высказываний, подтверждая психологическую достоверность. Мы также создали публичный Sentient Leaderboard, охватывающий 18 коммерческих и открытых моделей, который выявляет значительные разрывы (до 4 раз) между передовыми системами (GPT-4o-Latest, Gemini2.5-Pro) и более ранними базовыми моделями, что не отражено в традиционных рейтингах (например, Arena). Таким образом, SAGE предоставляет принципиальный, масштабируемый и интерпретируемый инструмент для отслеживания прогресса в создании по-настоящему эмпатичных и социально адаптированных языковых агентов.
Крупные модели рассуждений (LRMs) достигли значительных успехов в решении сложных задач благодаря генерации расширенных цепочек рассуждений (CoT). Однако их неконтролируемая длина вывода создает серьезные проблемы для практического применения, где бюджеты на количество токенов, задержку или вычислительные ресурсы строго ограничены. Мы предлагаем Elastic Reasoning — новый фреймворк для масштабируемых цепочек рассуждений, который явно разделяет процесс рассуждения на две фазы — мышление и решение — с независимо выделенными бюджетами. Во время тестирования Elastic Reasoning отдает приоритет полноте сегментов решения, значительно повышая надежность при жестких ограничениях ресурсов. Для обучения моделей, устойчивых к прерыванию процесса мышления, мы вводим легковесную стратегию rollout с ограниченным бюджетом, интегрированную в GRPO, которая учит модель адаптивно рассуждать, когда процесс мышления прерывается, и эффективно обобщать на неизвестные ограничения бюджета без дополнительного обучения. Эмпирические результаты на математических (AIME, MATH500) и программистских (LiveCodeBench, Codeforces) бенчмарках демонстрируют, что Elastic Reasoning устойчиво работает при строгих ограничениях бюджета, при этом требуя значительно меньших затрат на обучение по сравнению с базовыми методами. Примечательно, что наш подход также генерирует более лаконичные и эффективные рассуждения даже в условиях без ограничений. Elastic Reasoning предлагает принципиальное и практическое решение актуальной задачи управляемого рассуждения в масштабе.
Генерация 3D-сцен направлена на синтез пространственно структурированных, семантически значимых и фотореалистичных сред для таких приложений, как иммерсивные медиа, робототехника, автономное вождение и воплощённый искусственный интеллект. Ранние методы, основанные на процедурных правилах, обеспечивали масштабируемость, но ограничивали разнообразие. Последние достижения в области глубоких генеративных моделей (например, GAN, диффузионные модели) и 3D-представлений (например, NeRF, 3D-гауссовы распределения) позволили изучать распределения реальных сцен, улучшая точность, разнообразие и согласованность видов. Современные подходы, такие как диффузионные модели, объединяют синтез 3D-сцен и фотореализм, переосмысливая генерацию как задачи синтеза изображений или видео. Данный обзор представляет систематический анализ современных подходов, классифицируя их в четыре парадигмы: процедурная генерация, нейронная генерация на основе 3D, генерация на основе изображений и генерация на основе видео. Мы анализируем их технические основы, компромиссы и репрезентативные результаты, а также рассматриваем часто используемые наборы данных, протоколы оценки и приложения. В заключение обсуждаются ключевые проблемы в области генерации, 3D-представлений, данных и аннотаций, а также оценки, и намечаются перспективные направления, включая повышение точности, физически осознанную и интерактивную генерацию, а также унифицированные модели восприятия и генерации. Этот обзор систематизирует последние достижения в генерации 3D-сцен и выделяет перспективные направления на стыке генеративного ИИ, 3D-зрения и воплощённого интеллекта. Для отслеживания текущих разработок мы поддерживаем актуальную страницу проекта: https://github.com/hzxie/Awesome-3D-Scene-Generation.
Контрастивное предварительное обучение для языка и изображений (CLIP) демонстрирует выдающиеся результаты в мультимодальных задачах, таких как поиск по изображениям и текстам и классификация с нулевым обучением, однако испытывает трудности с детальным пониманием из-за ориентации на грубые короткие описания. Для решения этой проблемы мы предлагаем Fine-Grained CLIP (FG-CLIP), который улучшает детальное понимание за счет трех ключевых инноваций. Во-первых, мы используем крупные мультимодальные модели для генерации 1,6 миллиардов пар длинных описаний и изображений, что позволяет захватывать семантические детали на глобальном уровне. Во-вторых, создается высококачественный набор данных, включающий 12 миллионов изображений и 40 миллионов регион-специфичных ограничивающих рамок, согласованных с детальными описаниями, чтобы обеспечить точные и контекстно-богатые представления. В-третьих, добавляется 10 миллионов сложных негативных примеров для улучшения способности модели различать тонкие семантические различия. Соответствующие методы обучения тщательно разработаны для этих данных. Многочисленные эксперименты показывают, что FG-CLIP превосходит оригинальный CLIP и другие передовые методы в различных задачах, включая детальное понимание, обнаружение объектов с открытым словарем, поиск по изображениям и текстам, а также общие мультимодальные тесты. Эти результаты подчеркивают эффективность FG-CLIP в захвате деталей изображений и улучшении общей производительности модели. Соответствующие данные, код и модели доступны по адресу https://github.com/360CVGroup/FG-CLIP.
Недавние проприетарные модели (например, o3) начали демонстрировать мощные способности к мультимодальным рассуждениям. Однако большинство существующих исследований с открытым исходным кодом сосредоточено на обучении моделей, способных рассуждать только на основе текста, с оценками, ограниченными в основном математическими и общедоменными задачами. Поэтому остается неясным, как эффективно расширить способности к рассуждениям за пределы текстового ввода и общих областей. В данной статье исследуется фундаментальный научный вопрос: Являются ли рассуждения обобщаемыми между модальностями и доменами? Наши результаты подтверждают положительный ответ: Пост-обучение на общедоменных текстах может обеспечить такие сильные обобщаемые способности к рассуждениям. Используя это открытие, мы представляем X-Reasoner, модель обработки визуально-языковой информации, пост-обученную исключительно на общедоменных текстах для обобщаемых рассуждений, с использованием двухэтапного подхода: начальной фазы контролируемого тонкого настройки с дистиллированными длинными цепочками рассуждений, за которой следует обучение с подкреплением с проверяемыми вознаграждениями. Эксперименты показывают, что X-Reasoner успешно переносит способности к рассуждениям как в мультимодальные, так и в внедоменные условия, превосходя существующие передовые модели, обученные на внутридоменных и мультимодальных данных, на различных общих и медицинских тестах (Рисунок 1). Кроме того, мы обнаружили, что производительность X-Reasoner в специализированных доменах может быть дополнительно улучшена за счет продолжения обучения на доменно-специфических текстовых данных. На основе этого мы представляем X-Reasoner-Med, медицинскую специализированную версию, которая устанавливает новый стандарт на многочисленных текстовых и мультимодальных медицинских тестах.
Мы представляем StreamBridge — простую, но эффективную структуру, которая плавно преобразует автономные Video-LLM в модели, способные работать в потоковом режиме. Она решает две фундаментальные проблемы адаптации существующих моделей к онлайн-сценариям: (1) ограниченная способность к многозадачному пониманию в реальном времени и (2) отсутствие механизмов проактивного реагирования. В частности, StreamBridge включает (1) буфер памяти в сочетании со стратегией сжатия с круговым затуханием, поддерживающий длительные многозадачные взаимодействия, и (2) разделённую, лёгкую модель активации, которая может быть легко интегрирована в существующие Video-LLM, обеспечивая непрерывные проактивные ответы. Для дальнейшей поддержки StreamBridge мы создали Stream-IT — масштабный набор данных, адаптированный для потокового понимания видео, включающий чередующиеся видео-текстовые последовательности и разнообразные форматы инструкций. Многочисленные эксперименты показывают, что StreamBridge значительно улучшает способности автономных Video-LLM к потоковому пониманию в различных задачах, превосходя даже проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Одновременно с этим он демонстрирует конкурентоспособные или превосходящие результаты на стандартных тестах понимания видео.
Мы представляем новую задачу размещения объектов в реальных 3D-сценах на основе языковых инструкций. Наша модель получает облако точек 3D-сцены, 3D-объект и текстовый запрос, описывающий, где примерно должен быть размещён 3D-объект. Задача заключается в нахождении допустимого места для 3D-объекта, которое соответствует запросу. По сравнению с другими задачами локализации в 3D-сценах на основе языка, такими как привязка, эта задача имеет свои специфические сложности: она неоднозначна, так как имеет множество допустимых решений, и требует анализа 3D-геометрических отношений и свободного пространства. Мы открываем эту задачу, предлагая новый эталонный тест и протокол оценки. Также мы представляем новый набор данных для обучения 3D-языковых моделей на этой задаче, а также первый метод, который служит нетривиальной базовой линией. Мы считаем, что эта сложная задача и наш новый эталонный тест могут стать частью набора тестов, используемых для оценки и сравнения универсальных 3D-языковых моделей.
Распространенные методы обучения с подкреплением (RL) для тонкой настройки моделей языкового мышления (LLM), такие как GRPO или Leave-one-out PPO, отказываются от изученной функции ценности в пользу эмпирически оцененных возвратов. Это ограничивает масштабирование вычислительных ресурсов на этапе тестирования, которое зависит от использования функции ценности для проверки. В данной работе мы предлагаем RL^V, который расширяет любой «бесценностный» метод RL, совместно обучая LLM как в роли решателя, так и в роли генеративного верификатора с использованием данных, сгенерированных RL, добавляя возможности проверки без значительных накладных расходов. Эмпирически RL^V повышает точность на наборе MATH более чем на 20% при параллельной выборке и обеспечивает 8-32-кратное повышение эффективности вычислительных ресурсов на этапе тестирования по сравнению с базовым методом RL. RL^V также демонстрирует сильные способности к обобщению как для задач от простых к сложным, так и для задач вне домена. Кроме того, RL^V достигает 1.2-1.6-кратного повышения производительности при совместном масштабировании параллельных и последовательных вычислительных ресурсов на этапе тестирования с использованием модели длинного рассуждения R1.
Выбор данных для настройки инструкций имеет решающее значение для повышения производительности крупных языковых моделей (LLM) и снижения затрат на обучение. Однако существующие автоматизированные методы выбора либо зависят от вычислительно затратных градиентных метрик, либо от эвристик, разработанных вручную, которые могут не полностью учитывать внутренние свойства данных. В данной статье мы предлагаем In-context Learning for Contribution Measurement (ICon) — новый метод, не требующий вычисления градиентов, который использует неявную природу тонкой настройки в рамках обучения в контексте (ICL) для оценки вклада образцов данных без вычисления градиентов или разработки ручных индикаторов. ICon предоставляет вычислительно эффективную альтернативу градиентным методам и снижает человеческую индуктивную предвзятость, присущую эвристическим подходам. ICon состоит из трех компонентов и идентифицирует данные с высоким вкладом, оценивая изменения производительности при неявном обучении через ICL. Многочисленные эксперименты на трех LLM, охватывающих 12 бенчмарков и 5 парных наборов для оценки, демонстрируют эффективность ICon. Примечательно, что на модели LLaMA3.1-8B, обученной на 15% данных, отобранных с помощью ICon, результаты превосходят полные наборы данных на 5,42 процентных пункта и превышают лучшие показатели широко используемых методов выбора на 2,06 процентных пункта. Мы также анализируем образцы с высоким вкладом, отобранные ICon, которые демонстрируют как разнообразие задач, так и соответствующий уровень сложности, а не только самые сложные из них.
Способности к рассуждению крупных языковых моделей в основном изучаются для английского языка, даже когда предобученные модели являются многоязычными. В данной работе мы исследуем, в какой степени тонкая настройка на рассуждения с длинными цепочками мыслей (CoTs) для английского языка может обобщаться на другие языки. Во-первых, мы обнаруживаем, что увеличение вычислительных ресурсов для вывода в моделях, ориентированных на рассуждения на английском языке (RLMs), улучшает математические рассуждения на многих языках, включая языки с ограниченными ресурсами, до такой степени, что они превосходят модели вдвое большего размера. Во-вторых, мы показываем, что, хотя цепочки мыслей в моделях, ориентированных на английский язык, преимущественно на английском, они последовательно следуют шаблону "цитирование и размышление" для рассуждений о цитируемых вводах на других языках. В-третьих, мы открываем эффективную стратегию для управления языком длинных цепочек рассуждений и наблюдаем, что модели рассуждают лучше и эффективнее на языках с большими ресурсами. Наконец, мы отмечаем слабое обобщение рассуждений за пределами домена, особенно от STEM к культурным общеизвестным знаниям, даже для английского языка. В целом, мы демонстрируем потенциал, изучаем механизмы и обозначаем ограничения кросс-лингвистического обобщения масштабирования рассуждений на этапе тестирования для английского языка. Мы заключаем, что практикам следует позволять моделям, ориентированным на английский язык, рассуждать на языках с большими ресурсами, в то время как необходимы дальнейшие исследования для улучшения рассуждений на языках с ограниченными ресурсами и в контекстах за пределами домена.
Удаление данных в больших языковых моделях (LLM) имеет критическое значение для реальных приложений, где необходимо эффективно устранить влияние частных, защищённых авторским правом или вредоносных данных для некоторых пользователей. Однако существующие метрики удаления, ориентированные на полезность модели, могут неадекватно оценивать степень удаления в реалистичных сценариях, таких как случаи, когда (а) наборы данных для удаления и сохранения содержат семантически схожий контент, (б) переобучение модели с нуля на наборе данных для сохранения непрактично, и/или (в) владелец модели может улучшить метрику удаления без непосредственного выполнения удаления в LLM. В данной статье представлена первая метрика удаления, ориентированная на данные, под названием WaterDrum, которая использует устойчивое текстовое водяное знаки для преодоления этих ограничений. Мы также представляем новые эталонные наборы данных для удаления в LLM, содержащие различные уровни схожих точек данных, которые могут быть использованы для строгой оценки алгоритмов удаления с помощью WaterDrum. Наш код доступен по адресу https://github.com/lululu008/WaterDrum, а новые эталонные наборы данных опубликованы на https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
Метод "цепочки рассуждений" (Chain-of-Thoughts, CoT) требует, чтобы крупные языковые модели (LLM) генерировали промежуточные шаги перед достижением окончательного ответа, и доказал свою эффективность в решении сложных задач, требующих логического мышления. Однако внутренний механизм CoT до сих пор остается в значительной степени неясным. В данной работе мы эмпирически исследуем роль токенов CoT в LLM на двух композиционных задачах: умножении многозначных чисел и динамическом программировании. Хотя CoT необходим для решения этих задач, мы обнаружили, что сохранение только тех токенов, которые хранят промежуточные результаты, позволяет достичь сопоставимой производительности. Более того, мы наблюдаем, что хранение промежуточных результатов в альтернативной латентной форме не влияет на производительность модели. Мы также случайным образом вмешиваемся в некоторые значения в CoT и замечаем, что последующие токены CoT и окончательный ответ изменяются соответствующим образом. Эти результаты позволяют предположить, что токены CoT могут функционировать подобно переменным в компьютерных программах, но с потенциальными недостатками, такими как непреднамеренные упрощения и ограничения вычислительной сложности между токенами. Код и данные доступны по адресу https://github.com/solitaryzero/CoTs_are_Variables.
Модели Vision-Language-Action (VLA) представляют собой революционный прорыв в области искусственного интеллекта, направленный на объединение восприятия, понимания естественного языка и воплощённых действий в рамках единой вычислительной системы. Этот фундаментальный обзор предлагает всесторонний синтез последних достижений в области моделей VLA, систематически организованных по пяти тематическим направлениям, которые структурируют ландшафт этой быстро развивающейся области. Мы начинаем с установления концептуальных основ систем VLA, прослеживая их эволюцию от архитектур кросс-модального обучения до универсальных агентов, которые тесно интегрируют модели Vision-Language (VLM), планировщики действий и иерархические контроллеры. Наша методология основывается на строгом подходе к анализу литературы, охватывая более 80 моделей VLA, опубликованных за последние три года. Ключевые области прогресса включают архитектурные инновации, стратегии параметрически эффективного обучения и ускорение вывода в реальном времени. Мы исследуем разнообразные области применения, такие как гуманоидная робототехника, автономные транспортные средства, медицинская и промышленная робототехника, точное земледелие и навигация в дополненной реальности. Обзор также затрагивает основные проблемы, связанные с управлением в реальном времени, представлением мультимодальных действий, масштабируемостью систем, обобщением на неизвестные задачи и рисками этического развёртывания. Опираясь на современные достижения, мы предлагаем целевые решения, включая адаптацию агентного ИИ, кросс-воплощённое обобщение и унифицированное нейро-символическое планирование. В нашей перспективной дискуссии мы намечаем будущую дорожную карту, в которой модели VLA, VLM и агентный ИИ объединяются для создания социально ориентированных, адаптивных и универсальных воплощённых агентов. Эта работа служит фундаментальным справочником для продвижения интеллектуальной робототехники реального мира и искусственного общего интеллекта. >Vision-language-action, Агентный ИИ, ИИ-агенты, Модели Vision-Language
Надежное и эффективное сопоставление локальных признаков играет ключевую роль в таких приложениях, как SLAM и визуальная локализация для робототехники. Несмотря на значительный прогресс, извлечение устойчивых и различимых визуальных признаков в условиях резких изменений освещения, областей с низкой текстурой или повторяющихся паттернов остается крайне сложной задачей. В данной статье мы предлагаем новую легковесную сеть под названием LiftFeat, которая повышает устойчивость исходных дескрипторов за счет агрегирования 3D геометрических признаков. В частности, мы сначала используем предварительно обученную модель монохромной оценки глубины для генерации псевдонормалей поверхности, которые контролируют извлечение 3D геометрических признаков на основе предсказанных нормалей поверхности. Затем мы разрабатываем модуль повышения признаков с учетом 3D геометрии, который объединяет признаки нормалей поверхности с исходными 2D дескрипторами. Интеграция таких 3D геометрических признаков усиливает различительную способность 2D описания признаков в экстремальных условиях. Обширные экспериментальные результаты в задачах оценки относительного положения, оценки гомографии и визуальной локализации демонстрируют, что наш LiftFeat превосходит некоторые легковесные современные методы. Код будет доступен по адресу: https://github.com/lyp-deeplearning/LiftFeat.
Согласование языковых моделей с человеческими предпочтениями основывается на наборах данных с парными предпочтениями. Хотя некоторые исследования показывают, что данные, собранные в режиме on-policy, стабильно превосходят данные off-policy в обучении предпочтениям, другие указывают, что преимущества данных on-policy могут зависеть от задачи, что подчеркивает необходимость систематического изучения их взаимодействия. В данной работе мы демонстрируем, что данные on-policy и off-policy предлагают взаимодополняющие преимущества в оптимизации предпочтений: данные on-policy особенно эффективны для задач, связанных с логическим мышлением, таких как математика и программирование, в то время как данные off-policy лучше справляются с открытыми задачами, такими как творческое письмо и персонализированные рекомендации. Руководствуясь этими выводами, мы представляем SIMPLEMIX — подход, который объединяет взаимодополняющие преимущества обучения предпочтениям на данных on-policy и off-policy путем простого смешивания этих двух источников данных. Наши эмпирические результаты на различных задачах и бенчмарках показывают, что SIMPLEMIX значительно улучшает согласование языковых моделей. В частности, SIMPLEMIX превосходит on-policy DPO и off-policy DPO в среднем на 6,03% на Alpaca Eval 2.0. Более того, он опережает предыдущие подходы, которые были значительно сложнее в комбинировании данных on-policy и off-policy, такие как HyPO и DPO-Mix-P, в среднем на 3,05%.
По мере того как крупные языковые модели (LLM) превращаются в агентов, использующих инструменты, способность просматривать веб в реальном времени стала ключевым критерием для оценки их компетенции в рассуждениях и поиске информации. Существующие бенчмарки, такие как BrowseComp, сосредоточены на английском языке и игнорируют лингвистические, инфраструктурные и цензурные сложности других крупных информационных экосистем, в первую очередь китайской. Чтобы устранить этот пробел, мы представляем BrowseComp-ZH — высокосложный бенчмарк, специально разработанный для всесторонней оценки LLM-агентов в китайском интернете. BrowseComp-ZH состоит из 289 многошаговых вопросов, охватывающих 11 разнообразных областей. Каждый вопрос создан на основе короткого, объективного и легко проверяемого ответа (например, даты, числа или имени собственного). Для обеспечения высокой сложности вопросов и уникальности ответов применяется двухэтапный протокол контроля качества. Мы тестируем более 20 современных языковых моделей и поисковых систем на предложенном нами BrowseComp-ZH. Несмотря на их сильные разговорные и поисковые способности, большинство моделей демонстрируют серьезные трудности: многие достигают точности ниже 10%, и лишь немногие превышают 20%. Даже лучшая система, DeepResearch от OpenAI, достигает всего 42,9%. Эти результаты демонстрируют значительную сложность BrowseComp-ZH, где успех требует не только эффективных стратегий поиска, но и сложных рассуждений и согласования информации — способностей, которыми современные модели пока не владеют в полной мере. Наш набор данных, руководство по созданию и результаты бенчмарка опубликованы на https://github.com/PALIN2018/BrowseComp-ZH.