Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем DuPO — фреймворк оптимизации предпочтений на основе двойственного обучения, который генерирует обратную связь без аннотаций с использованием обобщённой двойственности. DuPO устраняет два ключевых ограничения: зависимость подхода "Обучение с подкреплением с верифицируемыми наградами" (RLVR) от дорогостоящих меток и его применимость только к верифицируемым задачам, а также ограничение традиционного двойственного обучения строго парными задачами (например, перевод и обратный перевод). В частности, DuPO разлагает входные данные основной задачи на известные и неизвестные компоненты, затем строит двойственную задачу для восстановления неизвестной части с использованием выхода основной задачи и известной информации (например, обратное решение математических задач для восстановления скрытых переменных), расширяя применимость к необратимым задачам. Качество этого восстановления служит самоконтролируемой наградой для оптимизации основной задачи, что синергетически сочетается с возможностью языковых моделей (LLM) реализовывать обе задачи через единую модель. Эмпирически DuPO демонстрирует значительные улучшения в различных задачах: повышает среднее качество перевода на 2.13 балла по метрике COMET в 756 направлениях, увеличивает точность математического рассуждения в среднем на 6.4 балла на трёх сложных бенчмарках и улучшает производительность на 9.3 балла в качестве ранжировщика на этапе вывода (обменивая вычисления на точность). Эти результаты позиционируют DuPO как масштабируемую, универсальную и не требующую аннотаций парадигму для оптимизации LLM.
Прогнозирование будущего является сложной задачей для агентов на основе больших языковых моделей (LLM), требующей высокого уровня аналитического мышления, сбора информации, понимания контекста и принятия решений в условиях неопределенности. Агенты должны не только собирать и интерпретировать огромные объемы динамической информации, но также интегрировать данные из различных источников, учитывать неопределенности и адаптировать прогнозы на основе возникающих трендов, подобно тому, как это делают эксперты в таких областях, как политика, экономика и финансы. Несмотря на важность этой задачи, до сих пор не существует крупномасштабного бенчмарка для оценки агентов в области прогнозирования будущего, что во многом связано с трудностями обработки обновлений в реальном времени и получения своевременных и точных ответов. Для решения этой проблемы мы представляем FutureX — динамический и актуальный бенчмарк, специально разработанный для оценки агентов LLM, выполняющих задачи прогнозирования будущего. FutureX является крупнейшим и наиболее разнообразным актуальным бенчмарком для прогнозирования, поддерживающим ежедневные обновления в реальном времени и исключающим загрязнение данных благодаря автоматизированному процессу сбора вопросов и ответов. Мы оцениваем 25 моделей LLM/агентов, включая те, которые обладают способностями к рассуждению, поиску и интеграции внешних инструментов, таких как открытый Deep Research Agent и закрытые модели Deep Research. Это всестороннее оценивание позволяет оценить адаптивное мышление и производительность агентов в динамичных условиях. Кроме того, мы предоставляем глубокий анализ ошибок и слабых мест агентов в задачах, ориентированных на будущее, включая уязвимость к фальшивым веб-страницам и временную валидность. Наша цель — установить динамичный, свободный от загрязнения стандарт оценки, который будет способствовать развитию агентов LLM, способных работать на уровне профессиональных человеческих аналитиков в сложных задачах рассуждения и прогнозирования.
Крупные языковые модели (LLM) демонстрируют перспективность для финансовых приложений, однако их пригодность для этой высокорисковой области остается в значительной степени недоказанной из-за недостатков существующих тестовых наборов. Современные тестовые наборы полагаются исключительно на оценку на уровне баллов, суммируя производительность с помощью единого показателя, который скрывает детальное понимание того, что модели действительно знают, и их точные ограничения. Они также используют наборы данных, охватывающие лишь узкий подмножество финансовых концепций, игнорируя другие важные аспекты для реальных приложений. Для устранения этих пробелов мы представляем FinCDM — первую когнитивную диагностическую оценочную структуру, разработанную специально для финансовых LLM, которая позволяет оценивать LLM на уровне знаний и навыков, выявляя, какие финансовые навыки и знания они имеют или не имеют, на основе их паттернов ответов на задачи с метками навыков, а не на основе единого агрегированного числа. Мы создаем CPA-QKA — первый когнитивно-ориентированный финансовый оценочный набор данных, основанный на экзамене для сертифицированных бухгалтеров (CPA), с полным охватом реальных навыков в области бухгалтерского учета и финансов. Он тщательно аннотирован экспертами в данной области, которые разрабатывают, проверяют и аннотируют вопросы с высокой согласованностью между аннотаторами и детализированными метками знаний. Наши обширные эксперименты с 30 проприетарными, открытыми и специализированными LLM показывают, что FinCDM выявляет скрытые пробелы в знаниях, идентифицирует недостаточно проверенные области, такие как налоговое и регуляторное мышление, упущенные традиционными тестовыми наборами, и обнаруживает поведенческие кластеры среди моделей. FinCDM представляет новую парадигму для оценки финансовых LLM, обеспечивая интерпретируемую, ориентированную на навыки диагностику, которая способствует более надежной и целенаправленной разработке моделей. Все наборы данных и скрипты для оценки будут опубликованы для поддержки дальнейших исследований.
Реконструкция 3D-объектов в редактируемые программы имеет ключевое значение для таких приложений, как обратное проектирование и редактирование форм. Однако существующие методы часто полагаются на ограниченные предметно-ориентированные языки (DSL) и небольшие наборы данных, что ограничивает их способность моделировать сложные геометрии и структуры. Для решения этих проблем мы представляем MeshCoder — новый фреймворк, который реконструирует сложные 3D-объекты из облаков точек в редактируемые скрипты на языке Python для Blender. Мы разрабатываем комплексный набор выразительных API на Python для Blender, способных синтезировать сложные геометрии. Используя эти API, мы создаем крупномасштабный парный набор данных объект-код, где код для каждого объекта разбит на отдельные семантические части. Затем мы обучаем мультимодальную большую языковую модель (LLM), которая преобразует 3D-облако точек в исполняемые скрипты на Python для Blender. Наш подход не только демонстрирует превосходную производительность в задачах реконструкции формы в код, но также обеспечивает интуитивное геометрическое и топологическое редактирование через удобные модификации кода. Кроме того, наше представление на основе кода усиливает способности LLM к рассуждению в задачах понимания 3D-форм. В совокупности эти вклады делают MeshCoder мощным и гибким решением для программной реконструкции и понимания 3D-форм.
Мы представляем Tinker — универсальный фреймворк для высококачественного 3D-редактирования, который работает как в режиме однократного, так и многократного применения без необходимости тонкой настройки для каждой сцены. В отличие от предыдущих методов, требующих обширной оптимизации для каждой сцены для обеспечения согласованности между несколькими видами или создания десятков согласованных редактированных входных данных, Tinker обеспечивает надежные, согласованные между видами правки, начиная всего с одного или двух изображений. Эта возможность достигается за счет перепрофилирования предобученных диффузионных моделей, что раскрывает их скрытое понимание 3D-пространства. Для стимулирования исследований в этой области мы создали первый крупномасштабный набор данных и конвейер обработки для многовидового редактирования, охватывающий разнообразные сцены и стили. На основе этого набора данных мы разработали наш фреймворк, способный генерировать согласованные между видами редактированные изображения без обучения для каждой сцены, который включает два новых компонента: (1) Редактор с привязкой к нескольким видам: позволяет выполнять точные, управляемые эталоном правки, которые остаются согласованными во всех ракурсах. (2) Синтезатор видео из любого вида: использует пространственно-временные априорные данные из видео-диффузии для выполнения высококачественного завершения сцены и генерации новых видов даже при скудных входных данных. Благодаря обширным экспериментам Tinker значительно снижает барьер для создания обобщаемого 3D-контента, достигая передовых результатов в задачах редактирования, синтеза новых видов и улучшения рендеринга. Мы считаем, что Tinker представляет собой важный шаг к действительно масштабируемому 3D-редактированию без предварительного обучения. Веб-страница проекта: https://aim-uofa.github.io/Tinker
Протокол Model Context Protocol (MCP) стал революционным стандартом для подключения крупных языковых моделей (LLM) к внешним источникам данных и инструментам, быстро завоевав популярность среди ведущих поставщиков ИИ и платформ разработки. Однако существующие бенчмарки чрезмерно упрощены и не учитывают реальные прикладные задачи, такие как долгосрочное рассуждение и работа с большими, незнакомыми пространствами инструментов. Чтобы устранить этот критический пробел, мы представляем MCP-Universe — первый всеобъемлющий бенчмарк, специально разработанный для оценки LLM в реалистичных и сложных задачах через взаимодействие с реальными серверами MCP. Наш бенчмарк охватывает 6 ключевых областей, включая 11 различных серверов MCP: навигацию по местоположению, управление репозиториями, финансовый анализ, 3D-дизайн, автоматизацию браузера и веб-поиск. Для обеспечения строгой оценки мы реализуем исполнительные методы оценки, включая форматные оценщики для проверки соответствия формату агентов, статические оценщики для сопоставления неизменного во времени контента и динамические оценщики, которые автоматически извлекают актуальные данные для задач, чувствительных ко времени. В ходе масштабной оценки ведущих LLM мы обнаружили, что даже передовые модели, такие как GPT-5 (43,72%), Grok-4 (33,33%) и Claude-4.0-Sonnet (29,44%), демонстрируют значительные ограничения в производительности. Кроме того, наш бенчмарк представляет собой серьезный вызов для LLM-агентов в работе с длинным контекстом, поскольку количество входных токенов быстро увеличивается с ростом числа шагов взаимодействия. Также он вводит задачу работы с неизвестными инструментами, поскольку LLM-агенты часто не знакомы с точным использованием серверов MCP. Примечательно, что корпоративные агенты, такие как Cursor, не могут достичь лучших результатов, чем стандартные фреймворки ReAct. Помимо оценки, мы открываем исходный код нашего расширяемого фреймворка оценки с поддержкой пользовательского интерфейса, позволяя исследователям и практикам легко интегрировать новых агентов и серверы MCP, способствуя инновациям в быстро развивающейся экосистеме MCP.
Мы представляем Nemotron-Nano-9B-v2, гибридную языковую модель Mamba-Transformer, разработанную для повышения пропускной способности при выполнении задач, требующих рассуждений, при достижении точности на уровне современных аналогов среди моделей схожего размера. Nemotron-Nano-9B-v2 основана на архитектуре Nemotron-H, в которой большинство слоев self-attention из стандартной архитектуры Transformer заменены слоями Mamba-2, что позволяет улучшить скорость вывода при генерации длинных цепочек рассуждений. Мы создали Nemotron-Nano-9B-v2, сначала предварительно обучив модель с 12 миллиардами параметров (Nemotron-Nano-12B-v2-Base) на 20 триллионах токенов с использованием рецепта обучения FP8. После выравнивания Nemotron-Nano-12B-v2-Base мы применили стратегию Minitron для сжатия и дистилляции модели с целью обеспечения вывода на до 128 тысяч токенов на одном GPU NVIDIA A10G (22 ГБ памяти, точность bfloat16). По сравнению с существующими моделями схожего размера (например, Qwen3-8B), мы показываем, что Nemotron-Nano-9B-v2 достигает сопоставимой или лучшей точности на тестах, требующих рассуждений, при этом обеспечивая до 6-кратного увеличения пропускной способности вывода в сценариях с 8 тысячами входных и 16 тысячами выходных токенов. Мы публикуем контрольные точки Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base и Nemotron-Nano-9B-v2-Base, а также большую часть наших наборов данных для предварительного и последующего обучения на платформе Hugging Face.
Искусственный интеллект (ИИ) трансформирует научные открытия, эволюционируя от специализированных вычислительных инструментов до автономных научных партнеров. Мы определяем «Агентную науку» (Agentic Science) как ключевой этап в рамках более широкой парадигмы «ИИ для науки», где системы ИИ переходят от частичной помощи к полной научной автономии. Благодаря крупным языковым моделям (LLM), мультимодальным системам и интегрированным исследовательским платформам, агентный ИИ демонстрирует способности в генерации гипотез, проектировании экспериментов, их выполнении, анализе и итеративном улучшении — процессах, которые ранее считались исключительно человеческими. В данном обзоре представлен предметно-ориентированный анализ автономных научных открытий в области наук о жизни, химии, материаловедения и физики. Мы объединяем три ранее разрозненных подхода — процессно-ориентированный, автономии-ориентированный и механизм-ориентированный — в рамках комплексной структуры, связывающей базовые возможности, ключевые процессы и предметно-специфические реализации. На основе этой структуры мы (i) прослеживаем эволюцию ИИ для науки, (ii) выделяем пять ключевых возможностей, лежащих в основе научной автономии, (iii) моделируем процесс открытия как динамический четырехэтапный рабочий процесс, (iv) анализируем приложения в указанных областях и (v) синтезируем ключевые вызовы и будущие возможности. Эта работа устанавливает предметно-ориентированный синтез автономных научных открытий и позиционирует «Агентную науку» как структурированную парадигму для продвижения исследований, основанных на ИИ.
Недавние достижения в области диффузионных больших языковых моделей (dLLM) представили многообещающую альтернативу авторегрессивным (AR) LLM для задач генерации естественного языка, используя стратегии полного внимания и декодирования на основе шумоподавления. Однако развертывание этих моделей на периферийных устройствах остается сложной задачей из-за их огромного масштаба параметров и высоких требований к ресурсам. Хотя посттренировочная квантизация (PTQ) стала широко применяемой техникой для сжатия AR LLM, ее применимость к dLLM остается в значительной степени неисследованной. В данной работе мы представляем первое систематическое исследование по квантизации диффузионных языковых моделей. Мы начинаем с выявления наличия выбросов активации, характеризующихся аномально большими значениями активации, которые доминируют в динамическом диапазоне. Эти выбросы представляют собой ключевую проблему для низкобитовой квантизации, так как они затрудняют сохранение точности для большинства значений. Более того, мы реализуем современные методы PTQ и проводим всестороннюю оценку по множеству типов задач и вариантов моделей. Наш анализ структурирован по четырем ключевым направлениям: битовая ширина, метод квантизации, категория задачи и тип модели. Благодаря этой многоперспективной оценке мы предлагаем практические инсайты о поведении квантизации dLLM при различных конфигурациях. Мы надеемся, что наши результаты послужат основой для будущих исследований в области эффективного развертывания dLLM. Все коды и экспериментальные настройки будут опубликованы для поддержки сообщества.
Мы представляем RynnEC, видео-мультимодальную большую языковую модель, разработанную для воплощённого познания. Построенная на основе универсальной модели для обработки визуальных и текстовых данных, RynnEC включает в себя региональный кодировщик и декодер масок, что обеспечивает гибкое взаимодействие на уровне регионов в видео. Несмотря на компактную архитектуру, RynnEC демонстрирует наилучшие результаты в понимании свойств объектов, сегментации объектов и пространственном рассуждении. Концептуально она предлагает регионо-ориентированный подход к видео для "мозга" воплощённых агентов, обеспечивая детальное восприятие физического мира и более точное взаимодействие. Для решения проблемы нехватки аннотированных 3D-данных мы предлагаем конвейер на основе эгоцентричного видео для генерации данных воплощённого познания. Кроме того, мы представляем RynnEC-Bench, регионо-ориентированный бенчмарк для оценки когнитивных способностей воплощённых агентов. Мы ожидаем, что RynnEC ускорит разработку универсальных когнитивных ядер для воплощённых агентов и облегчит обобщение для разнообразных задач воплощённого познания. Код, контрольные точки модели и бенчмарк доступны по адресу: https://github.com/alibaba-damo-academy/RynnEC.
Системы искусственного интеллекта трансформируют научные открытия, ускоряя выполнение конкретных исследовательских задач — от предсказания структуры белков до проектирования материалов, — однако пока остаются ограниченными узкими областями, требующими значительного человеческого контроля. Экспоненциальный рост научной литературы и усиление специализации в различных областях ограничивают способность исследователей синтезировать знания из разных дисциплин и разрабатывать унифицирующие теории, что стимулирует поиск более универсальных систем ИИ для науки. В данной работе мы демонстрируем, что агентная система ИИ, не зависящая от конкретной области, может самостоятельно управлять научным процессом — от генерации гипотез через сбор данных до подготовки рукописей. Система автономно разработала и провела три психологических исследования, посвященных зрительной рабочей памяти, ментальному вращению и яркости образов, организовала новый сбор данных онлайн с участием 288 человек, создала аналитические конвейеры в ходе непрерывных сессий программирования продолжительностью более 8 часов и подготовила завершенные рукописи. Результаты демонстрируют способность научных конвейеров ИИ проводить нетривиальные исследования с теоретическим обоснованием и методологической строгостью, сопоставимыми с опытом профессиональных исследователей, хотя и с ограничениями в концептуальной тонкости и теоретической интерпретации. Это шаг к воплощенному ИИ, способному проверять гипотезы через реальные эксперименты, ускоряя открытия за счет автономного исследования областей научного пространства, которые из-за когнитивных и ресурсных ограничений человека могли бы остаться неизученными. Это поднимает важные вопросы о природе научного понимания и атрибуции научных заслуг.
Квадратичная сложность механизма самовнимания ограничивает его применимость и масштабируемость на больших неструктурированных сетках. Мы представляем Fast Low-rank Attention Routing Engine (FLARE) — механизм самовнимания с линейной сложностью, который направляет внимание через фиксированные по длине латентные последовательности. Каждый блок внимания выполняет глобальную коммуникацию между N токенами, проецируя входную последовательность на фиксированную латентную последовательность длины M, где M ≪ N, с использованием обучаемых токенов запроса. Направляя внимание через последовательность-«бутылочное горлышко», FLARE обучает низкоранговую форму внимания, которая может быть применена с вычислительной сложностью O(NM). FLARE не только масштабируется до беспрецедентных размеров задач, но и демонстрирует превосходную точность по сравнению с современными нейронными суррогатами дифференциальных уравнений в частных производных на различных тестовых наборах. Мы также публикуем новый набор данных по аддитивному производству для стимулирования дальнейших исследований. Наш код доступен по адресу https://github.com/vpuri3/FLARE.py.
Обучение с учителем (Supervised Fine-Tuning, SFT) и обучение с подкреплением (Reinforcement Learning, RL) являются двумя ключевыми подходами для улучшения возможностей и согласования поведения крупных языковых моделей (Large Language Models, LLMs). Существующие методы, объединяющие SFT и RL, часто сталкиваются с риском нарушения установленных паттернов модели и переобучения на экспертных данных. Для решения этой проблемы мы представляем новое исследование, рассматривающее SFT и RL через призму off-policy и on-policy подходов. Мы предлагаем CHORD — фреймворк для контролируемой гармонизации on-policy и off-policy обучения с подкреплением с использованием динамического взвешивания, который переосмысливает SFT не как отдельный этап, а как динамически взвешенную вспомогательную цель в рамках on-policy RL процесса. На основе анализа влияния off-policy экспертных данных как на глобальном, так и на детальном уровнях, мы включаем в CHORD механизм двойного контроля. В частности, фреймворк сначала использует глобальный коэффициент для целостного перехода от off-policy имитации к on-policy исследованию, а затем применяет потокенную функцию взвешивания, которая позволяет детально обучаться на экспертных токенах, сохраняя on-policy исследование и смягчая влияние off-policy данных. Мы проводим обширные эксперименты на широко используемых бенчмарках, предоставляя эмпирические доказательства того, что CHORD обеспечивает стабильный и эффективный процесс обучения. Благодаря эффективной гармонизации off-policy экспертных данных с on-policy исследованием, CHORD демонстрирует значительные улучшения по сравнению с базовыми методами. Мы публикуем реализацию на https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord для вдохновения дальнейших исследований.
Модели обработки визуальной информации и языка (VLMs) демонстрируют впечатляющие способности в решении мультимодальных задач на английском языке, однако их производительность на низкоресурсных языках с подлинно мультимодальным образовательным контентом остается в значительной степени неисследованной. В данной работе мы тестируем, как VLMs справляются с вьетнамскими образовательными тестами, исследуя, могут ли модели, обученные преимущественно на английских данных, справляться с реальными задачами кросс-лингвистического мультимодального рассуждения. Наша работа представляет первое всестороннее оценивание возможностей VLMs на мультимодальных вьетнамских экзаменах, предлагая ViExam — эталонный набор, содержащий 2 548 мультимодальных вопросов. Мы обнаруживаем, что современные VLMs достигают лишь 57,74% средней точности, в то время как модели с открытым исходным кодом показывают 27,70% точности в 7 академических областях, включая математику, физику, химию, биологию, географию, тест на вождение и тест на IQ. Большинство VLMs уступают среднему результату человека (66,54%), и только модель o3 (74,07%) превосходит средний человеческий показатель, но все же значительно отстает от лучшего результата человека (99,60%). Кросс-лингвистические подсказки с инструкциями на английском языке при сохранении вьетнамского контента не улучшают производительность, снижая точность на 1 процентный пункт для современных VLMs. Совместная работа с участием человека может частично повысить производительность VLMs на 5 процентных пунктов. Код и данные доступны по адресу: https://vi-exam.github.io.
Крупные языковые модели (LLM) достигли значительных успехов в задачах, требующих рассуждений, благодаря методам, таким как цепочка рассуждений (CoT). Однако они часто оказываются недостаточно эффективными в задачах, требующих точных вычислений. Интеграция инструментов в процесс рассуждений (Tool-Integrated Reasoning, TIR) появилась как решение, позволяющее использовать внешние инструменты для улучшения рассуждений. Тем не менее, степень обобщения TIR в улучшении способности LLM к рассуждениям остается неясной. Кроме того, вопрос о том, улучшила ли TIR поведение модели в рассуждениях и помогла ли модели "мыслить", требует дальнейшего изучения. Мы представляем ReasonZoo — комплексный бенчмарк, охватывающий девять разнообразных категорий рассуждений, для оценки эффективности TIR в различных областях. Также мы предлагаем две новые метрики: Cost-Aware Performance (CAP) и Area Under the Performance-Cost Curve (AUC-PCC), чтобы оценить эффективность рассуждений. Наше эмпирическое исследование показывает, что модели с поддержкой TIR стабильно превосходят модели без TIR как в математических, так и в нематематических задачах. Более того, TIR повышает эффективность рассуждений, что подтверждается улучшенными значениями CAP и AUC-PCC, указывающими на снижение избыточного анализа и более структурированные рассуждения. Эти результаты подчеркивают универсальные преимущества TIR и её потенциал для развития возможностей LLM в сложных задачах, требующих рассуждений.
Вариация масштаба представляет собой фундаментальную проблему в компьютерном зрении. Объекты одного класса могут иметь разные размеры, а их воспринимаемый размер дополнительно зависит от расстояния до камеры. Эти вариации локальны для объектов, то есть размеры разных объектов могут изменяться по-разному в пределах одного изображения. Для эффективного управления вариациями масштаба мы представляем глубокий равновесный канонизатор (DEC), который улучшает локальную эквивариантность масштаба модели. DEC может быть легко интегрирован в существующие архитектуры сетей и адаптирован для предварительно обученной модели. Примечательно, что на конкурентном бенчмарке ImageNet DEC улучшает как производительность модели, так и локальную согласованность масштаба для четырех популярных предварительно обученных глубоких сетей, таких как ViT, DeiT, Swin и BEiT. Наш код доступен по адресу https://github.com/ashiq24/local-scale-equivariance.
В данной статье представлен новый подход к вычислению расстояния Левенштейна (редакционного расстояния) в рамках полностью гомоморфного шифрования (FHE), с акцентом на схемы третьего поколения, такие как TFHE. Вычисления редакционного расстояния имеют ключевое значение в приложениях, включая финансы и геномику, например, для выравнивания последовательностей ДНК. Мы представляем оптимизированный алгоритм под названием Leuvenshtein, который значительно снижает затраты на вычисление редакционного расстояния. Этот алгоритм сокращает количество необходимых программируемых операций бутстраппинга (PBS) для каждой ячейки вычисления с примерно 94 операций, требуемых классическим алгоритмом Вагнера-Фишера, до всего 1. Кроме того, мы предлагаем эффективный метод проверки равенства символов, сокращая сравнение ASCII-символов до всего 2 операций PBS. Наконец, мы исследуем потенциал для дальнейшего повышения производительности за счет использования предварительной обработки, когда одна из входных строк не зашифрована. Наш алгоритм Leuvenshtein демонстрирует до 278-кратное ускорение по сравнению с лучшей доступной реализацией TFHE и до 39-кратное ускорение по сравнению с оптимизированной реализацией алгоритма Вагнера-Фишера. Более того, когда возможна оффлайн-предварительная обработка благодаря наличию одной незашифрованной входной строки на стороне сервера, можно достичь дополнительного 3-кратного ускорения.
Последние достижения в области крупных языковых моделей (LLM), усиленных способностью к рассуждению, продемонстрировали впечатляющие возможности в решении сложных задач, требующих логического мышления. Однако механизмы, лежащие в основе их использования различных навыков человеческого рассуждения, остаются малоизученными, особенно в контексте многоязычного здравого смысла, который включает повседневные знания из разных языков и культур. Для устранения этого пробела мы предлагаем многоязычный и масштабируемый бенчмарк для оценки навыков здравого смысла (mSCoRe). Наш бенчмарк включает три ключевых компонента, разработанных для систематической оценки способностей LLM к рассуждению: (1) новую таксономию навыков рассуждения, позволяющую проводить детальный анализ процессов рассуждения моделей, (2) надежный конвейер синтеза данных, специально адаптированный для оценки здравого смысла, и (3) фреймворк масштабирования сложности, позволяющий динамически увеличивать сложность задач в соответствии с будущими улучшениями способностей LLM. Экстенсивные эксперименты на восьми современных LLM различных размеров и подходов к обучению показывают, что mSCoRe остается значительным вызовом для текущих моделей, особенно на более высоких уровнях сложности. Наши результаты выявляют ограничения таких моделей, усиленных способностью к рассуждению, при столкновении с тонкостями многоязычного общего и культурного здравого смысла. Мы также предоставляем детальный анализ процессов рассуждения моделей, предлагая направления для улучшения их способностей к многоязычному здравому смыслу в будущем.
Мультимодальные системы рекомендаций сосредоточены на использовании богатой модальной информации (например, изображений и текстовых описаний) элементов для повышения качества рекомендаций. Современные методы достигли значительных успехов благодаря мощным возможностям моделирования структуры с использованием графовых нейронных сетей. Однако эти методы часто сталкиваются с проблемой разреженности данных в реальных сценариях. Хотя контрастивное обучение и гомография (т.е. однородные графы) применяются для решения проблемы разреженности данных, существующие методы все еще имеют два основных ограничения: 1) Простые контрасты мультимодальных признаков не позволяют получить эффективные представления, что приводит к шуму в общих модальных признаках и потере ценной информации в уникальных модальных признаках; 2) Недостаточное исследование гомографических отношений между интересами пользователей и совместным появлением элементов приводит к неполному анализу взаимодействия пользователей и элементов. Для устранения этих ограничений мы предлагаем новую структуру для уточнения мультимодального контрастивного обучения и гомографических отношений (REARM). В частности, мы дополняем мультимодальное контрастивное обучение, используя стратегии мета-сети и ортогональных ограничений, которые фильтруют шум в общих модальных признаках и сохраняют информацию, релевантную для рекомендаций, в уникальных модальных признаках. Для эффективного анализа однородных отношений мы интегрируем вновь построенный граф интересов пользователей и граф совместного появления элементов с существующими графами совместного появления пользователей и семантическими графами элементов для обучения на графах. Эксперименты на трех реальных наборах данных демонстрируют превосходство REARM по сравнению с различными современными базовыми методами. Наша визуализация также показывает улучшение, достигнутое REARM в различении общих и уникальных модальных признаков. Код доступен по ссылке: https://github.com/MrShouxingMa/REARM{здесь}.