HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

19 papers found

DuPO: Обеспечение надежной самопроверки языковых моделей через двойную оптимизацию предпочтений
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

Aug 20

ByShuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

Мы представляем DuPO — фреймворк оптимизации предпочтений на основе двойственного обучения, который генерирует обратную связь без аннотаций с использованием обобщённой двойственности. DuPO устраняет два ключевых ограничения: зависимость подхода "Обучение с подкреплением с верифицируемыми наградами" (RLVR) от дорогостоящих меток и его применимость только к верифицируемым задачам, а также ограничение традиционного двойственного обучения строго парными задачами (например, перевод и обратный перевод). В частности, DuPO разлагает входные данные основной задачи на известные и неизвестные компоненты, затем строит двойственную задачу для восстановления неизвестной части с использованием выхода основной задачи и известной информации (например, обратное решение математических задач для восстановления скрытых переменных), расширяя применимость к необратимым задачам. Качество этого восстановления служит самоконтролируемой наградой для оптимизации основной задачи, что синергетически сочетается с возможностью языковых моделей (LLM) реализовывать обе задачи через единую модель. Эмпирически DuPO демонстрирует значительные улучшения в различных задачах: повышает среднее качество перевода на 2.13 балла по метрике COMET в 756 направлениях, увеличивает точность математического рассуждения в среднем на 6.4 балла на трёх сложных бенчмарках и улучшает производительность на 9.3 балла в качестве ранжировщика на этапе вывода (обменивая вычисления на точность). Эти результаты позиционируют DuPO как масштабируемую, универсальную и не требующую аннотаций парадигму для оптимизации LLM.

FutureX: Продвинутый живой бенчмарк для агентов на основе языковых моделей в прогнозировании будущего
FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

Aug 16

ByZhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang

Прогнозирование будущего является сложной задачей для агентов на основе больших языковых моделей (LLM), требующей высокого уровня аналитического мышления, сбора информации, понимания контекста и принятия решений в условиях неопределенности. Агенты должны не только собирать и интерпретировать огромные объемы динамической информации, но также интегрировать данные из различных источников, учитывать неопределенности и адаптировать прогнозы на основе возникающих трендов, подобно тому, как это делают эксперты в таких областях, как политика, экономика и финансы. Несмотря на важность этой задачи, до сих пор не существует крупномасштабного бенчмарка для оценки агентов в области прогнозирования будущего, что во многом связано с трудностями обработки обновлений в реальном времени и получения своевременных и точных ответов. Для решения этой проблемы мы представляем FutureX — динамический и актуальный бенчмарк, специально разработанный для оценки агентов LLM, выполняющих задачи прогнозирования будущего. FutureX является крупнейшим и наиболее разнообразным актуальным бенчмарком для прогнозирования, поддерживающим ежедневные обновления в реальном времени и исключающим загрязнение данных благодаря автоматизированному процессу сбора вопросов и ответов. Мы оцениваем 25 моделей LLM/агентов, включая те, которые обладают способностями к рассуждению, поиску и интеграции внешних инструментов, таких как открытый Deep Research Agent и закрытые модели Deep Research. Это всестороннее оценивание позволяет оценить адаптивное мышление и производительность агентов в динамичных условиях. Кроме того, мы предоставляем глубокий анализ ошибок и слабых мест агентов в задачах, ориентированных на будущее, включая уязвимость к фальшивым веб-страницам и временную валидность. Наша цель — установить динамичный, свободный от загрязнения стандарт оценки, который будет способствовать развитию агентов LLM, способных работать на уровне профессиональных человеческих аналитиков в сложных задачах рассуждения и прогнозирования.

MeshCoder: Генерация структурированных сеточных кодов на основе облаков точек с использованием языковых моделей
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

Aug 20

ByBingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

Реконструкция 3D-объектов в редактируемые программы имеет ключевое значение для таких приложений, как обратное проектирование и редактирование форм. Однако существующие методы часто полагаются на ограниченные предметно-ориентированные языки (DSL) и небольшие наборы данных, что ограничивает их способность моделировать сложные геометрии и структуры. Для решения этих проблем мы представляем MeshCoder — новый фреймворк, который реконструирует сложные 3D-объекты из облаков точек в редактируемые скрипты на языке Python для Blender. Мы разрабатываем комплексный набор выразительных API на Python для Blender, способных синтезировать сложные геометрии. Используя эти API, мы создаем крупномасштабный парный набор данных объект-код, где код для каждого объекта разбит на отдельные семантические части. Затем мы обучаем мультимодальную большую языковую модель (LLM), которая преобразует 3D-облако точек в исполняемые скрипты на Python для Blender. Наш подход не только демонстрирует превосходную производительность в задачах реконструкции формы в код, но также обеспечивает интуитивное геометрическое и топологическое редактирование через удобные модификации кода. Кроме того, наше представление на основе кода усиливает способности LLM к рассуждению в задачах понимания 3D-форм. В совокупности эти вклады делают MeshCoder мощным и гибким решением для программной реконструкции и понимания 3D-форм.

От оценок к навыкам: когнитивная диагностическая структура для оценки финансовых больших языковых моделей
From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

Aug 19

ByZiyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou

Крупные языковые модели (LLM) демонстрируют перспективность для финансовых приложений, однако их пригодность для этой высокорисковой области остается в значительной степени недоказанной из-за недостатков существующих тестовых наборов. Современные тестовые наборы полагаются исключительно на оценку на уровне баллов, суммируя производительность с помощью единого показателя, который скрывает детальное понимание того, что модели действительно знают, и их точные ограничения. Они также используют наборы данных, охватывающие лишь узкий подмножество финансовых концепций, игнорируя другие важные аспекты для реальных приложений. Для устранения этих пробелов мы представляем FinCDM — первую когнитивную диагностическую оценочную структуру, разработанную специально для финансовых LLM, которая позволяет оценивать LLM на уровне знаний и навыков, выявляя, какие финансовые навыки и знания они имеют или не имеют, на основе их паттернов ответов на задачи с метками навыков, а не на основе единого агрегированного числа. Мы создаем CPA-QKA — первый когнитивно-ориентированный финансовый оценочный набор данных, основанный на экзамене для сертифицированных бухгалтеров (CPA), с полным охватом реальных навыков в области бухгалтерского учета и финансов. Он тщательно аннотирован экспертами в данной области, которые разрабатывают, проверяют и аннотируют вопросы с высокой согласованностью между аннотаторами и детализированными метками знаний. Наши обширные эксперименты с 30 проприетарными, открытыми и специализированными LLM показывают, что FinCDM выявляет скрытые пробелы в знаниях, идентифицирует недостаточно проверенные области, такие как налоговое и регуляторное мышление, упущенные традиционными тестовыми наборами, и обнаруживает поведенческие кластеры среди моделей. FinCDM представляет новую парадигму для оценки финансовых LLM, обеспечивая интерпретируемую, ориентированную на навыки диагностику, которая способствует более надежной и целенаправленной разработке моделей. Все наборы данных и скрипты для оценки будут опубликованы для поддержки дальнейших исследований.

MCP-Universe: Оценка больших языковых моделей с использованием серверов протокола контекста реальных моделей
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Aug 20

ByZiyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li

Протокол Model Context Protocol (MCP) стал революционным стандартом для подключения крупных языковых моделей (LLM) к внешним источникам данных и инструментам, быстро завоевав популярность среди ведущих поставщиков ИИ и платформ разработки. Однако существующие бенчмарки чрезмерно упрощены и не учитывают реальные прикладные задачи, такие как долгосрочное рассуждение и работа с большими, незнакомыми пространствами инструментов. Чтобы устранить этот критический пробел, мы представляем MCP-Universe — первый всеобъемлющий бенчмарк, специально разработанный для оценки LLM в реалистичных и сложных задачах через взаимодействие с реальными серверами MCP. Наш бенчмарк охватывает 6 ключевых областей, включая 11 различных серверов MCP: навигацию по местоположению, управление репозиториями, финансовый анализ, 3D-дизайн, автоматизацию браузера и веб-поиск. Для обеспечения строгой оценки мы реализуем исполнительные методы оценки, включая форматные оценщики для проверки соответствия формату агентов, статические оценщики для сопоставления неизменного во времени контента и динамические оценщики, которые автоматически извлекают актуальные данные для задач, чувствительных ко времени. В ходе масштабной оценки ведущих LLM мы обнаружили, что даже передовые модели, такие как GPT-5 (43,72%), Grok-4 (33,33%) и Claude-4.0-Sonnet (29,44%), демонстрируют значительные ограничения в производительности. Кроме того, наш бенчмарк представляет собой серьезный вызов для LLM-агентов в работе с длинным контекстом, поскольку количество входных токенов быстро увеличивается с ростом числа шагов взаимодействия. Также он вводит задачу работы с неизвестными инструментами, поскольку LLM-агенты часто не знакомы с точным использованием серверов MCP. Примечательно, что корпоративные агенты, такие как Cursor, не могут достичь лучших результатов, чем стандартные фреймворки ReAct. Помимо оценки, мы открываем исходный код нашего расширяемого фреймворка оценки с поддержкой пользовательского интерфейса, позволяя исследователям и практикам легко интегрировать новых агентов и серверы MCP, способствуя инновациям в быстро развивающейся экосистеме MCP.

Tinker: Дар диффузии для 3D — согласованное редактирование по нескольким видам на основе разреженных входных данных без оптимизации для каждой сцены
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

Aug 20

ByCanyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen

Мы представляем Tinker — универсальный фреймворк для высококачественного 3D-редактирования, который работает как в режиме однократного, так и многократного применения без необходимости тонкой настройки для каждой сцены. В отличие от предыдущих методов, требующих обширной оптимизации для каждой сцены для обеспечения согласованности между несколькими видами или создания десятков согласованных редактированных входных данных, Tinker обеспечивает надежные, согласованные между видами правки, начиная всего с одного или двух изображений. Эта возможность достигается за счет перепрофилирования предобученных диффузионных моделей, что раскрывает их скрытое понимание 3D-пространства. Для стимулирования исследований в этой области мы создали первый крупномасштабный набор данных и конвейер обработки для многовидового редактирования, охватывающий разнообразные сцены и стили. На основе этого набора данных мы разработали наш фреймворк, способный генерировать согласованные между видами редактированные изображения без обучения для каждой сцены, который включает два новых компонента: (1) Редактор с привязкой к нескольким видам: позволяет выполнять точные, управляемые эталоном правки, которые остаются согласованными во всех ракурсах. (2) Синтезатор видео из любого вида: использует пространственно-временные априорные данные из видео-диффузии для выполнения высококачественного завершения сцены и генерации новых видов даже при скудных входных данных. Благодаря обширным экспериментам Tinker значительно снижает барьер для создания обобщаемого 3D-контента, достигая передовых результатов в задачах редактирования, синтеза новых видов и улучшения рендеринга. Мы считаем, что Tinker представляет собой важный шаг к действительно масштабируемому 3D-редактированию без предварительного обучения. Веб-страница проекта: https://aim-uofa.github.io/Tinker

NVIDIA Nemotron Nano 2: Точная и эффективная гибридная модель рассуждений на основе Mamba-Transformer
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Aug 20

ByNVIDIA, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adi Renduchintala, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

Мы представляем Nemotron-Nano-9B-v2, гибридную языковую модель Mamba-Transformer, разработанную для повышения пропускной способности при выполнении задач, требующих рассуждений, при достижении точности на уровне современных аналогов среди моделей схожего размера. Nemotron-Nano-9B-v2 основана на архитектуре Nemotron-H, в которой большинство слоев self-attention из стандартной архитектуры Transformer заменены слоями Mamba-2, что позволяет улучшить скорость вывода при генерации длинных цепочек рассуждений. Мы создали Nemotron-Nano-9B-v2, сначала предварительно обучив модель с 12 миллиардами параметров (Nemotron-Nano-12B-v2-Base) на 20 триллионах токенов с использованием рецепта обучения FP8. После выравнивания Nemotron-Nano-12B-v2-Base мы применили стратегию Minitron для сжатия и дистилляции модели с целью обеспечения вывода на до 128 тысяч токенов на одном GPU NVIDIA A10G (22 ГБ памяти, точность bfloat16). По сравнению с существующими моделями схожего размера (например, Qwen3-8B), мы показываем, что Nemotron-Nano-9B-v2 достигает сопоставимой или лучшей точности на тестах, требующих рассуждений, при этом обеспечивая до 6-кратного увеличения пропускной способности вывода в сценариях с 8 тысячами входных и 16 тысячами выходных токенов. Мы публикуем контрольные точки Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base и Nemotron-Nano-9B-v2-Base, а также большую часть наших наборов данных для предварительного и последующего обучения на платформе Hugging Face.

От ИИ для науки к агентной науке: обзор автономного научного открытия
From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

Aug 18

ByJiaqi Wei, Yuejin Yang, Xiang Zhang, Yuhan Chen, Xiang Zhuang, Zhangyang Gao, Dongzhan Zhou, Guangshuai Wang, Zhiqiang Gao, Juntai Cao, Zijie Qiu, Xuming He, Qiang Zhang, Chenyu You, Shuangjia Zheng, Ning Ding, Wanli Ouyang, Nanqing Dong, Yu Cheng, Siqi Sun, Lei Bai, Bowen Zhou

Искусственный интеллект (ИИ) трансформирует научные открытия, эволюционируя от специализированных вычислительных инструментов до автономных научных партнеров. Мы определяем «Агентную науку» (Agentic Science) как ключевой этап в рамках более широкой парадигмы «ИИ для науки», где системы ИИ переходят от частичной помощи к полной научной автономии. Благодаря крупным языковым моделям (LLM), мультимодальным системам и интегрированным исследовательским платформам, агентный ИИ демонстрирует способности в генерации гипотез, проектировании экспериментов, их выполнении, анализе и итеративном улучшении — процессах, которые ранее считались исключительно человеческими. В данном обзоре представлен предметно-ориентированный анализ автономных научных открытий в области наук о жизни, химии, материаловедения и физики. Мы объединяем три ранее разрозненных подхода — процессно-ориентированный, автономии-ориентированный и механизм-ориентированный — в рамках комплексной структуры, связывающей базовые возможности, ключевые процессы и предметно-специфические реализации. На основе этой структуры мы (i) прослеживаем эволюцию ИИ для науки, (ii) выделяем пять ключевых возможностей, лежащих в основе научной автономии, (iii) моделируем процесс открытия как динамический четырехэтапный рабочий процесс, (iv) анализируем приложения в указанных областях и (v) синтезируем ключевые вызовы и будущие возможности. Эта работа устанавливает предметно-ориентированный синтез автономных научных открытий и позиционирует «Агентную науку» как структурированную парадигму для продвижения исследований, основанных на ИИ.

Квантование встречает dLLM: Систематическое исследование посттренировочного квантования для диффузионных больших языковых моделей
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Aug 20

ByHaokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Недавние достижения в области диффузионных больших языковых моделей (dLLM) представили многообещающую альтернативу авторегрессивным (AR) LLM для задач генерации естественного языка, используя стратегии полного внимания и декодирования на основе шумоподавления. Однако развертывание этих моделей на периферийных устройствах остается сложной задачей из-за их огромного масштаба параметров и высоких требований к ресурсам. Хотя посттренировочная квантизация (PTQ) стала широко применяемой техникой для сжатия AR LLM, ее применимость к dLLM остается в значительной степени неисследованной. В данной работе мы представляем первое систематическое исследование по квантизации диффузионных языковых моделей. Мы начинаем с выявления наличия выбросов активации, характеризующихся аномально большими значениями активации, которые доминируют в динамическом диапазоне. Эти выбросы представляют собой ключевую проблему для низкобитовой квантизации, так как они затрудняют сохранение точности для большинства значений. Более того, мы реализуем современные методы PTQ и проводим всестороннюю оценку по множеству типов задач и вариантов моделей. Наш анализ структурирован по четырем ключевым направлениям: битовая ширина, метод квантизации, категория задачи и тип модели. Благодаря этой многоперспективной оценке мы предлагаем практические инсайты о поведении квантизации dLLM при различных конфигурациях. Мы надеемся, что наши результаты послужат основой для будущих исследований в области эффективного развертывания dLLM. Все коды и экспериментальные настройки будут опубликованы для поддержки сообщества.

RynnEC: Внедрение MLLM в воплощённый мир
RynnEC: Bringing MLLMs into Embodied World

Aug 19

ByRonghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

Мы представляем RynnEC, видео-мультимодальную большую языковую модель, разработанную для воплощённого познания. Построенная на основе универсальной модели для обработки визуальных и текстовых данных, RynnEC включает в себя региональный кодировщик и декодер масок, что обеспечивает гибкое взаимодействие на уровне регионов в видео. Несмотря на компактную архитектуру, RynnEC демонстрирует наилучшие результаты в понимании свойств объектов, сегментации объектов и пространственном рассуждении. Концептуально она предлагает регионо-ориентированный подход к видео для "мозга" воплощённых агентов, обеспечивая детальное восприятие физического мира и более точное взаимодействие. Для решения проблемы нехватки аннотированных 3D-данных мы предлагаем конвейер на основе эгоцентричного видео для генерации данных воплощённого познания. Кроме того, мы представляем RynnEC-Bench, регионо-ориентированный бенчмарк для оценки когнитивных способностей воплощённых агентов. Мы ожидаем, что RynnEC ускорит разработку универсальных когнитивных ядер для воплощённых агентов и облегчит обобщение для разнообразных задач воплощённого познания. Код, контрольные точки модели и бенчмарк доступны по адресу: https://github.com/alibaba-damo-academy/RynnEC.

Добродетельные машины: на пути к искусственному общему интеллекту в науке
Virtuous Machines: Towards Artificial General Science

Aug 19

ByGabrielle Wehr, Reuben Rideaux, Amaya J. Fox, David R. Lightfoot, Jason Tangen, Jason B. Mattingley, Shane E. Ehrhardt

Системы искусственного интеллекта трансформируют научные открытия, ускоряя выполнение конкретных исследовательских задач — от предсказания структуры белков до проектирования материалов, — однако пока остаются ограниченными узкими областями, требующими значительного человеческого контроля. Экспоненциальный рост научной литературы и усиление специализации в различных областях ограничивают способность исследователей синтезировать знания из разных дисциплин и разрабатывать унифицирующие теории, что стимулирует поиск более универсальных систем ИИ для науки. В данной работе мы демонстрируем, что агентная система ИИ, не зависящая от конкретной области, может самостоятельно управлять научным процессом — от генерации гипотез через сбор данных до подготовки рукописей. Система автономно разработала и провела три психологических исследования, посвященных зрительной рабочей памяти, ментальному вращению и яркости образов, организовала новый сбор данных онлайн с участием 288 человек, создала аналитические конвейеры в ходе непрерывных сессий программирования продолжительностью более 8 часов и подготовила завершенные рукописи. Результаты демонстрируют способность научных конвейеров ИИ проводить нетривиальные исследования с теоретическим обоснованием и методологической строгостью, сопоставимыми с опытом профессиональных исследователей, хотя и с ограничениями в концептуальной тонкости и теоретической интерпретации. Это шаг к воплощенному ИИ, способному проверять гипотезы через реальные эксперименты, ускоряя открытия за счет автономного исследования областей научного пространства, которые из-за когнитивных и ресурсных ограничений человека могли бы остаться неизученными. Это поднимает важные вопросы о природе научного понимания и атрибуции научных заслуг.

Обучение с подкреплением на основе текущей политики встречается с экспертами, использующими внешнюю политику: гармонизация тонкой настройки с учителем и обучения с подкреплением через динамическое взвешивание
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Aug 15

ByWenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou

Обучение с учителем (Supervised Fine-Tuning, SFT) и обучение с подкреплением (Reinforcement Learning, RL) являются двумя ключевыми подходами для улучшения возможностей и согласования поведения крупных языковых моделей (Large Language Models, LLMs). Существующие методы, объединяющие SFT и RL, часто сталкиваются с риском нарушения установленных паттернов модели и переобучения на экспертных данных. Для решения этой проблемы мы представляем новое исследование, рассматривающее SFT и RL через призму off-policy и on-policy подходов. Мы предлагаем CHORD — фреймворк для контролируемой гармонизации on-policy и off-policy обучения с подкреплением с использованием динамического взвешивания, который переосмысливает SFT не как отдельный этап, а как динамически взвешенную вспомогательную цель в рамках on-policy RL процесса. На основе анализа влияния off-policy экспертных данных как на глобальном, так и на детальном уровнях, мы включаем в CHORD механизм двойного контроля. В частности, фреймворк сначала использует глобальный коэффициент для целостного перехода от off-policy имитации к on-policy исследованию, а затем применяет потокенную функцию взвешивания, которая позволяет детально обучаться на экспертных токенах, сохраняя on-policy исследование и смягчая влияние off-policy данных. Мы проводим обширные эксперименты на широко используемых бенчмарках, предоставляя эмпирические доказательства того, что CHORD обеспечивает стабильный и эффективный процесс обучения. Благодаря эффективной гармонизации off-policy экспертных данных с on-policy исследованием, CHORD демонстрирует значительные улучшения по сравнению с базовыми методами. Мы публикуем реализацию на https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord для вдохновения дальнейших исследований.

FLARE: Быстрый механизм маршрутизации внимания с низким рангом
FLARE: Fast Low-rank Attention Routing Engine

Aug 18

ByVedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara

Квадратичная сложность механизма самовнимания ограничивает его применимость и масштабируемость на больших неструктурированных сетках. Мы представляем Fast Low-rank Attention Routing Engine (FLARE) — механизм самовнимания с линейной сложностью, который направляет внимание через фиксированные по длине латентные последовательности. Каждый блок внимания выполняет глобальную коммуникацию между N токенами, проецируя входную последовательность на фиксированную латентную последовательность длины M, где M ≪ N, с использованием обучаемых токенов запроса. Направляя внимание через последовательность-«бутылочное горлышко», FLARE обучает низкоранговую форму внимания, которая может быть применена с вычислительной сложностью O(NM). FLARE не только масштабируется до беспрецедентных размеров задач, но и демонстрирует превосходную точность по сравнению с современными нейронными суррогатами дифференциальных уравнений в частных производных на различных тестовых наборах. Мы также публикуем новый набор данных по аддитивному производству для стимулирования дальнейших исследований. Наш код доступен по адресу https://github.com/vpuri3/FLARE.py.

ViExam: Превосходят ли модели обработки визуальной и языковой информации человека в решении вьетнамских мультимодальных экзаменационных вопросов?
ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

Aug 19

ByVy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim

Модели обработки визуальной информации и языка (VLMs) демонстрируют впечатляющие способности в решении мультимодальных задач на английском языке, однако их производительность на низкоресурсных языках с подлинно мультимодальным образовательным контентом остается в значительной степени неисследованной. В данной работе мы тестируем, как VLMs справляются с вьетнамскими образовательными тестами, исследуя, могут ли модели, обученные преимущественно на английских данных, справляться с реальными задачами кросс-лингвистического мультимодального рассуждения. Наша работа представляет первое всестороннее оценивание возможностей VLMs на мультимодальных вьетнамских экзаменах, предлагая ViExam — эталонный набор, содержащий 2 548 мультимодальных вопросов. Мы обнаруживаем, что современные VLMs достигают лишь 57,74% средней точности, в то время как модели с открытым исходным кодом показывают 27,70% точности в 7 академических областях, включая математику, физику, химию, биологию, географию, тест на вождение и тест на IQ. Большинство VLMs уступают среднему результату человека (66,54%), и только модель o3 (74,07%) превосходит средний человеческий показатель, но все же значительно отстает от лучшего результата человека (99,60%). Кросс-лингвистические подсказки с инструкциями на английском языке при сохранении вьетнамского контента не улучшают производительность, снижая точность на 1 процентный пункт для современных VLMs. Совместная работа с участием человека может частично повысить производительность VLMs на 5 процентных пунктов. Код и данные доступны по адресу: https://vi-exam.github.io.

Анализ интегрированного инструментами рассуждения: эмпирическое исследование и анализ
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

Aug 21

ByYufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

Крупные языковые модели (LLM) достигли значительных успехов в задачах, требующих рассуждений, благодаря методам, таким как цепочка рассуждений (CoT). Однако они часто оказываются недостаточно эффективными в задачах, требующих точных вычислений. Интеграция инструментов в процесс рассуждений (Tool-Integrated Reasoning, TIR) появилась как решение, позволяющее использовать внешние инструменты для улучшения рассуждений. Тем не менее, степень обобщения TIR в улучшении способности LLM к рассуждениям остается неясной. Кроме того, вопрос о том, улучшила ли TIR поведение модели в рассуждениях и помогла ли модели "мыслить", требует дальнейшего изучения. Мы представляем ReasonZoo — комплексный бенчмарк, охватывающий девять разнообразных категорий рассуждений, для оценки эффективности TIR в различных областях. Также мы предлагаем две новые метрики: Cost-Aware Performance (CAP) и Area Under the Performance-Cost Curve (AUC-PCC), чтобы оценить эффективность рассуждений. Наше эмпирическое исследование показывает, что модели с поддержкой TIR стабильно превосходят модели без TIR как в математических, так и в нематематических задачах. Более того, TIR повышает эффективность рассуждений, что подтверждается улучшенными значениями CAP и AUC-PCC, указывающими на снижение избыточного анализа и более структурированные рассуждения. Эти результаты подчеркивают универсальные преимущества TIR и её потенциал для развития возможностей LLM в сложных задачах, требующих рассуждений.

Локальная эквивариантность масштаба с использованием латентного канонизатора глубокого равновесия
Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

Aug 19

ByMd Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

Вариация масштаба представляет собой фундаментальную проблему в компьютерном зрении. Объекты одного класса могут иметь разные размеры, а их воспринимаемый размер дополнительно зависит от расстояния до камеры. Эти вариации локальны для объектов, то есть размеры разных объектов могут изменяться по-разному в пределах одного изображения. Для эффективного управления вариациями масштаба мы представляем глубокий равновесный канонизатор (DEC), который улучшает локальную эквивариантность масштаба модели. DEC может быть легко интегрирован в существующие архитектуры сетей и адаптирован для предварительно обученной модели. Примечательно, что на конкурентном бенчмарке ImageNet DEC улучшает как производительность модели, так и локальную согласованность масштаба для четырех популярных предварительно обученных глубоких сетей, таких как ViT, DeiT, Swin и BEiT. Наш код доступен по адресу https://github.com/ashiq24/local-scale-equivariance.

mSCoRe: Многоязычный и масштабируемый эталонный тест для оценки навыкового здравого смысла
mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

Aug 13

ByNghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

Последние достижения в области крупных языковых моделей (LLM), усиленных способностью к рассуждению, продемонстрировали впечатляющие возможности в решении сложных задач, требующих логического мышления. Однако механизмы, лежащие в основе их использования различных навыков человеческого рассуждения, остаются малоизученными, особенно в контексте многоязычного здравого смысла, который включает повседневные знания из разных языков и культур. Для устранения этого пробела мы предлагаем многоязычный и масштабируемый бенчмарк для оценки навыков здравого смысла (mSCoRe). Наш бенчмарк включает три ключевых компонента, разработанных для систематической оценки способностей LLM к рассуждению: (1) новую таксономию навыков рассуждения, позволяющую проводить детальный анализ процессов рассуждения моделей, (2) надежный конвейер синтеза данных, специально адаптированный для оценки здравого смысла, и (3) фреймворк масштабирования сложности, позволяющий динамически увеличивать сложность задач в соответствии с будущими улучшениями способностей LLM. Экстенсивные эксперименты на восьми современных LLM различных размеров и подходов к обучению показывают, что mSCoRe остается значительным вызовом для текущих моделей, особенно на более высоких уровнях сложности. Наши результаты выявляют ограничения таких моделей, усиленных способностью к рассуждению, при столкновении с тонкостями многоязычного общего и культурного здравого смысла. Мы также предоставляем детальный анализ процессов рассуждения моделей, предлагая направления для улучшения их способностей к многоязычному здравому смыслу в будущем.

Leuvenshtein: Эффективное вычисление расстояния редактирования на основе FHE с одной операцией бутстраппинга на ячейку
Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell

Aug 20

ByWouter Legiest, Jan-Pieter D'Anvers, Bojan Spasic, Nam-Luc Tran, Ingrid Verbauwhede

В данной статье представлен новый подход к вычислению расстояния Левенштейна (редакционного расстояния) в рамках полностью гомоморфного шифрования (FHE), с акцентом на схемы третьего поколения, такие как TFHE. Вычисления редакционного расстояния имеют ключевое значение в приложениях, включая финансы и геномику, например, для выравнивания последовательностей ДНК. Мы представляем оптимизированный алгоритм под названием Leuvenshtein, который значительно снижает затраты на вычисление редакционного расстояния. Этот алгоритм сокращает количество необходимых программируемых операций бутстраппинга (PBS) для каждой ячейки вычисления с примерно 94 операций, требуемых классическим алгоритмом Вагнера-Фишера, до всего 1. Кроме того, мы предлагаем эффективный метод проверки равенства символов, сокращая сравнение ASCII-символов до всего 2 операций PBS. Наконец, мы исследуем потенциал для дальнейшего повышения производительности за счет использования предварительной обработки, когда одна из входных строк не зашифрована. Наш алгоритм Leuvenshtein демонстрирует до 278-кратное ускорение по сравнению с лучшей доступной реализацией TFHE и до 39-кратное ускорение по сравнению с оптимизированной реализацией алгоритма Вагнера-Фишера. Более того, когда возможна оффлайн-предварительная обработка благодаря наличию одной незашифрованной входной строки на стороне сервера, можно достичь дополнительного 3-кратного ускорения.

Усовершенствование контрастного обучения и гомографических отношений для многомодальных рекомендательных систем
Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

Aug 19

ByShouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu

Мультимодальные системы рекомендаций сосредоточены на использовании богатой модальной информации (например, изображений и текстовых описаний) элементов для повышения качества рекомендаций. Современные методы достигли значительных успехов благодаря мощным возможностям моделирования структуры с использованием графовых нейронных сетей. Однако эти методы часто сталкиваются с проблемой разреженности данных в реальных сценариях. Хотя контрастивное обучение и гомография (т.е. однородные графы) применяются для решения проблемы разреженности данных, существующие методы все еще имеют два основных ограничения: 1) Простые контрасты мультимодальных признаков не позволяют получить эффективные представления, что приводит к шуму в общих модальных признаках и потере ценной информации в уникальных модальных признаках; 2) Недостаточное исследование гомографических отношений между интересами пользователей и совместным появлением элементов приводит к неполному анализу взаимодействия пользователей и элементов. Для устранения этих ограничений мы предлагаем новую структуру для уточнения мультимодального контрастивного обучения и гомографических отношений (REARM). В частности, мы дополняем мультимодальное контрастивное обучение, используя стратегии мета-сети и ортогональных ограничений, которые фильтруют шум в общих модальных признаках и сохраняют информацию, релевантную для рекомендаций, в уникальных модальных признаках. Для эффективного анализа однородных отношений мы интегрируем вновь построенный граф интересов пользователей и граф совместного появления элементов с существующими графами совместного появления пользователей и семантическими графами элементов для обучения на графах. Эксперименты на трех реальных наборах данных демонстрируют превосходство REARM по сравнению с различными современными базовыми методами. Наша визуализация также показывает улучшение, достигнутое REARM в различении общих и уникальных модальных признаков. Код доступен по ссылке: https://github.com/MrShouxingMa/REARM{здесь}.