HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

rStar-Math: Маленькие LLM могут овладеть математическим мышлением с помощью саморазвивающегося глубокого мышления.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Jan 8

ByXinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang

286

Мы представляем rStar-Math для демонстрации того, что небольшие языковые модели (SLM) могут соперничать или даже превзойти математическую способность рассуждения OpenAI o1, без дистилляции от более совершенных моделей. rStar-Math достигает этого, используя "глубокое мышление" через Монте-Карло поиск по дереву (MCTS), где математическая политика SLM выполняет поиск во время тестирования, направляемый моделью вознаграждения процесса на основе SLM. rStar-Math вводит три инновации для решения проблем при обучении двух SLM: (1) новый метод синтеза данных CoT с кодом, который выполняет обширные прокрутки MCTS для генерации пошаговых проверенных траекторий рассуждений, используемых для обучения политики SLM; (2) новый метод обучения модели вознаграждения процесса, который избегает наивной аннотации оценки на уровне шага, обеспечивая более эффективную модель предпочтений процесса (PPM); (3) рецепт самоэволюции, в котором политика SLM и PPM создаются с нуля и итеративно эволюционируются для улучшения способностей к рассуждению. Через 4 раунда самоэволюции с миллионами синтезированных решений для 747 тыс. математических проблем, rStar-Math повышает математическое рассуждение SLM до уровня передовых технологий. На бенчмарке MATH он улучшает Qwen2.5-Math-7B с 58,8% до 90,0% и Phi3-mini-3.8B с 41,4% до 86,4%, превосходя o1-preview на +4,5% и +0,9%. На Американской математической олимпиаде (AIME) rStar-Math решает в среднем 53,3% (8 из 15) задач, входя в топ-20% самых ярких старшеклассников по математике. Код и данные будут доступны по адресу https://github.com/microsoft/rStar.

Поиск-o1: Агентный поиск с улучшением крупных моделей рассуждений
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Jan 9

ByXiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou

102

Большие модели рассуждений (LRM), такие как OpenAI-o1, продемонстрировали впечатляющие возможности долгосрочного логического рассуждения с помощью обучения с подкреплением на большом масштабе. Однако их продолжительные процессы рассуждений часто страдают от недостаточности знаний, что приводит к частым неопределенностям и потенциальным ошибкам. Для преодоления этого ограничения мы представляем Search-o1, фреймворк, который улучшает LRM с механизмом агентного поиска с увеличением генерации (RAG) и модулем Причина-в-Документах для уточнения извлеченных документов. Search-o1 интегрирует агентный поисковый рабочий процесс в процесс рассуждения, обеспечивая динамическое извлечение внешних знаний, когда LRM сталкивается с неопределенными точками знаний. Кроме того, из-за многословной природы извлеченных документов мы разрабатываем отдельный модуль Причина-в-Документах для глубокого анализа извлеченной информации перед ее внедрением в цепочку рассуждений, минимизируя шум и сохраняя последовательность логического рассуждения. Обширные эксперименты на сложных задачах рассуждения в области науки, математики и программирования, а также на шести бенчмарках открытых вопросов и ответов, демонстрируют высокую производительность Search-o1. Этот подход улучшает надежность и применимость LRM в сложных задачах рассуждения, открывая путь к более надежным и универсальным интеллектуальным системам. Код доступен по адресу https://github.com/sunnynexus/Search-o1.

К Системе 2 Рассуждений в LLMs: Изучение Как Думать С Мета Цепочкой Мыслей
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Jan 8

ByViolet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn

Мы предлагаем новую концепцию, мета-цепочку мыслей (Meta-CoT), которая расширяет традиционную цепочку мыслей (CoT), явно моделируя базовое рассуждение, необходимое для формирования определенной CoT. Мы представляем эмпирические доказательства от современных моделей, демонстрирующих поведение, согласующееся с поиском в контексте, и исследуем методы создания Meta-CoT через процессное наблюдение, генерацию синтетических данных и алгоритмы поиска. Наконец, мы излагаем конкретный план обучения модели для создания Meta-CoTs, включая настройку инструкций с линеаризованными следами поиска и обучение с подкреплением после обучения. Наконец, мы обсуждаем открытые исследовательские вопросы, включая законы масштабирования, роли верификаторов и потенциал обнаружения новых алгоритмов рассуждения. Эта работа предоставляет теоретическую и практическую дорожную карту для внедрения Meta-CoT в LLMs, открывая путь к более мощному и человекоподобному рассуждению в искусственном интеллекте.

Лаборатория агентов: Использование агентов LLM в качестве исследовательских помощников
Agent Laboratory: Using LLM Agents as Research Assistants

Jan 8

BySamuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Zicheng Liu, Emad Barsoum

Исторически научное открытие было длительным и затратным процессом, требующим значительного времени и ресурсов от начальной концепции до конечных результатов. Для ускорения научного открытия, снижения издержек на исследования и улучшения качества исследований мы представляем Agent Laboratory, автономную платформу на основе LLM, способную завершить весь исследовательский процесс. Эта платформа принимает идею исследования, предоставленную человеком, и проходит через три этапа - обзор литературы, экспериментирование и написание отчета для создания комплексных исследовательских результатов, включая репозиторий кода и исследовательский отчет, позволяя пользователям давать обратную связь и руководство на каждом этапе. Мы развернули Agent Laboratory с различными передовыми LLM и пригласили нескольких исследователей оценить его качество, участвуя в опросе, предоставляя человеческую обратную связь для руководства исследовательским процессом, а затем оценивая окончательную статью. Мы обнаружили, что: (1) Agent Laboratory, управляемый o1-preview, дает лучшие исследовательские результаты; (2) Сгенерированный код машинного обучения способен достичь передовой производительности по сравнению с существующими методами; (3) Участие человека, предоставляющего обратную связь на каждом этапе, значительно улучшает общее качество исследований; (4) Agent Laboratory значительно снижает издержки на исследования, достигая сокращения на 84% по сравнению с предыдущими автономными методами исследований. Мы надеемся, что Agent Laboratory позволит исследователям направить больше усилий на творческое мышление, а не на низкоуровневое программирование и написание, в конечном итоге ускоряя научное открытие.

URSA: Понимание и Проверка Цепочки Мыслительных Процессов в Мультимодальной Математике
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Jan 8

ByRuilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang

Рассуждение по цепочке (CoT) широко применяется в математическом рассуждении моделей больших языков (LLM). Недавно внедрение процесса дифференциации на траектории CoT вызвало обсуждения о повышении масштабируемости во время тестирования, тем самым увеличивая потенциал этих моделей. Однако в мультимодальном математическом рассуждении недостаток качественных данных для обучения CoT препятствовал существующим моделям достижению высокоточного рассуждения по CoT и ограничил реализацию потенциала рассуждения во время тестирования. В данной работе мы предлагаем стратегию синтеза из трех модулей, которая интегрирует дистилляцию CoT, переписывание формата траектории и унификацию формата. Это приводит к созданию качественного набора данных для настройки инструкций рассуждения по CoT в мультимодальной математике, MMathCoT-1M. Мы всесторонне проверяем современное состояние (SOTA) производительности обученной модели URSA-7B на нескольких мультимодальных математических бенчмарках. Для масштабирования во время тестирования мы предлагаем стратегию синтеза данных, которая автоматически генерирует наборы данных с аннотациями процесса, известные как DualMath-1.1M, с акцентом на интерпретацию и логику. После дополнительного обучения URSA-7B на DualMath-1.1M, мы переходим от возможностей рассуждения по CoT к устойчивым способностям надзора. Обученная модель URSA-RM-7B действует как верификатор, эффективно повышая производительность URSA-7B во время тестирования. URSA-RM-7B также демонстрирует отличные способности верификации вне распределения (OOD), показывая свою обобщенность. Веса модели, обучающие данные и код будут опубликованы в открытом доступе.

LLM4SR: Обзор больших языковых моделей для научных исследований
LLM4SR: A Survey on Large Language Models for Scientific Research

Jan 8

ByZiming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du

В последние годы быстрое развитие крупных языковых моделей (LLM) преобразовало ландшафт научных исследований, предлагая беспрецедентную поддержку на различных этапах исследовательского цикла. В данной статье представлен первый систематический обзор, посвященный изучению того, как LLM революционизируют процесс научных исследований. Мы анализируем уникальные роли, которые LLM играют на четырех критических этапах исследований: обнаружение гипотез, планирование и реализация экспериментов, научное письмо и рецензирование. Наш обзор всесторонне демонстрирует методологии, специфичные для задач, и оценочные критерии. Идентифицируя текущие проблемы и предлагая направления для будущих исследований, этот обзор не только подчеркивает трансформационный потенциал LLM, но и стремится вдохновить и направить исследователей и практиков в использовании LLM для продвижения научного поиска. Ресурсы доступны в следующем репозитории: https://github.com/du-nlp-lab/LLM4SR

InfiGUIAgent: Мультимодальный генералистский агент GUI с встроенным рассуждением и отражением.
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Jan 8

ByYuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu

Агенты графического пользовательского интерфейса (GUI), оснащенные мультимодальными большими языковыми моделями (MLLM), показали большой потенциал для автоматизации задач на вычислительных устройствах, таких как компьютеры и мобильные телефоны. Однако существующие агенты сталкиваются с вызовами в многоэтапном рассуждении и зависимости от текстовых аннотаций, что ограничивает их эффективность. Мы представляем InfiGUIAgent, агента GUI на основе MLLM, обученного с использованием двухэтапного процесса обучения с учителем. Этап 1 улучшает основные навыки, такие как понимание GUI и закрепление, в то время как этап 2 интегрирует иерархическое рассуждение и рассуждение на основе ожиданий-отражения, используя синтезированные данные для обеспечения встроенных рассуждений агентов. InfiGUIAgent достигает конкурентоспособной производительности на нескольких бенчмарках GUI, подчеркивая влияние встроенных навыков рассуждения на улучшение взаимодействия с GUI для задач автоматизации. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiGUIAgent.

GeAR: Генерация с увеличением поиска
GeAR: Generation Augmented Retrieval

Jan 6

ByHaoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang

Техники извлечения документов являются основой для разработки информационных систем большого масштаба. Преобладающей методологией является построение би-кодировщика и вычисление семантической схожести. Однако такая скалярная схожесть затрудняет отражение достаточного количества информации и затрудняет наше понимание результатов извлечения. Кроме того, этот вычислительный процесс в основном подчеркивает глобальную семантику и игнорирует мелкозернистые семантические отношения между запросом и сложным текстом в документе. В данной статье мы предлагаем новый метод под названием Генеративно-усиленное извлечение (GeAR), который включает в себя хорошо спроектированные модули слияния и декодирования. Это позволяет GeAR генерировать соответствующий текст из документов на основе объединенного представления запроса и документа, обучаясь "фокусироваться" на мелкозернистой информации. Кроме того, при использовании в качестве извлекателя, GeAR не добавляет никакой вычислительной нагрузки по сравнению с би-кодировщиками. Для поддержки обучения новой структуры мы представили конвейер для эффективного синтеза высококачественных данных с использованием больших языковых моделей. GeAR демонстрирует конкурентоспособные показатели извлечения и локализации в различных сценариях и наборах данных. Более того, качественный анализ и результаты, полученные GeAR, предоставляют новые идеи для интерпретации результатов извлечения. Код, данные и модели будут опубликованы после завершения технического обзора для облегчения будущих исследований.

Chirpy3D: Непрерывные Части Латентов для Творческой Генерации 3D Птиц.
Chirpy3D: Continuous Part Latents for Creative 3D Bird Generation

Jan 7

ByKam Woh Ng, Jing Yang, Jia Wei Sii, Jiankang Deng, Chee Seng Chan, Yi-Zhe Song, Tao Xiang, Xiatian Zhu

В данной статье мы расширяем границы создания трехмерных изображений с тонкой детализацией в поистине творческую область. Существующие методы либо лишены сложных деталей, либо просто имитируют существующие объекты — мы же позволяем обеим вариантам. Подняв понимание тонкой детализации с двумерного уровня на трехмерный с помощью многозрительной диффузии и моделирования частей как непрерывных распределений, мы разблокируем возможность создания совершенно новых, но правдоподобных частей путем интерполяции и выборки. Потеря самонаблюдения при согласовании признаков дополнительно обеспечивает стабильное создание этих невидимых частей. Результатом стало первое система, способная создавать новые трехмерные объекты с деталями, характерными для определенных видов, которые превосходят существующие примеры. Хотя мы продемонстрировали наш подход на птицах, базовая структура распространяется за пределы того, что может щебетать! Код будет опубликован по адресу https://github.com/kamwoh/chirpy3d.

SPAR3D: Устойчивая реконструкция трехмерных объектов с помощью одиночных изображений, учитывающая точки.
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Jan 8

ByZixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani

Мы исследуем проблему восстановления трехмерных объектов по одному изображению. Недавние работы разделились на два направления: моделирование на основе регрессии и генеративное моделирование. Методы регрессии эффективно выводят видимые поверхности, но испытывают трудности с закрытыми областями. Генеративные методы лучше справляются с неопределенными областями, моделируя распределения, но являются вычислительно затратными, и генерация часто не совпадает с видимыми поверхностями. В данной статье мы представляем SPAR3D, новый двухэтапный подход, целью которого является объединение лучших аспектов обоих направлений. Первый этап SPAR3D генерирует разреженные облака точек в 3D с использованием легкой модели диффузии точек, обладающей быстрой скоростью выборки. Второй этап использует как сэмплированное облако точек, так и входное изображение для создания высокодетализированных сеток. Наше двухэтапное решение позволяет вероятностное моделирование плохо обусловленной задачи восстановления трехмерных объектов по одному изображению, сохраняя при этом высокую вычислительную эффективность и отличное качество выходных данных. Использование облаков точек в качестве промежуточного представления также позволяет интерактивное редактирование пользователем. Протестированный на различных наборах данных, SPAR3D демонстрирует превосходное качество по сравнению с предыдущими передовыми методами, обеспечивая скорость вывода 0,7 секунды. Страница проекта с кодом и моделью: https://spar3d.github.io

EpiCoder: Охватывая разнообразие и сложность в генерации кода
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li

Эффективная настройка инструкций необходима для оптимизации кода LLMs, согласования поведения модели с ожиданиями пользователей и улучшения производительности модели в реальных приложениях. Однако большинство существующих методов сосредоточены на фрагментах кода, ограниченных определенными функциональностями и жесткими структурами, что ограничивает сложность и разнообразие синтезированных данных. Для преодоления этих ограничений мы представляем новую синтезирующую структуру на основе деревьев признаков, вдохновленную абстрактными синтаксическими деревьями (AST). В отличие от AST, который захватывает синтаксическую структуру кода, наша структура моделирует семантические отношения между элементами кода, обеспечивая генерацию более тонких и разнообразных данных. Дерево признаков строится из исходных данных и итеративно уточняется для увеличения количества и разнообразия извлеченных признаков. Этот процесс позволяет выявлять более сложные шаблоны и отношения внутри кода. Путем выборки поддеревьев с контролируемой глубиной и шириной наша структура позволяет точно настраивать сложность сгенерированного кода, поддерживая широкий спектр задач от простых операций на уровне функций до сложных сценариев с несколькими файлами. Мы донастраивали широко используемые базовые модели для создания серии EpiCoder, достигая передовой производительности как на уровне функций, так и файлов по нескольким бенчмаркам. Особенно важно, что эмпирические данные указывают на значительный потенциал нашего подхода в синтезе высоко сложных данных кода на уровне репозитория. Дальнейший анализ разъясняет преимущества этого подхода путем тщательной оценки сложности и разнообразия данных с помощью принципов инженерии программного обеспечения и метода LLM-как-судьи.

Многозадачная настройка извлекателя для доменно-специфического и эффективного RAG
Multi-task retriever fine-tuning for domain-specific and efficient RAG

Jan 8

ByPatrice Béchard, Orlando Marquez Ayala

Поисково-улучшенная генерация (RAG) стала неотъемлемой частью при развертывании больших языковых моделей (LLM), поскольку она способна решить типичные ограничения, такие как генерация галлюцинаций или устаревшей информации. Однако при создании прикладных приложений RAG для реального мира возникают практические проблемы. Во-первых, извлеченная информация обычно специфична для области. Поскольку настройка LLM методом дообучения является вычислительно затратной, более целесообразно дообучить извлекателя для улучшения качества данных, включаемых во вход LLM. Во-вторых, по мере развертывания большего числа приложений в одной и той же системе реального мира невозможно развернуть отдельные извлекатели. Более того, эти приложения RAG обычно извлекают различные типы данных. Нашим решением является инструкционное дообучение небольшого кодировщика извлекателя на различных задачах, специфичных для области, что позволяет нам развернуть один кодировщик, который может обслуживать множество случаев использования, обеспечивая тем самым низкую стоимость, масштабируемость и скорость. Мы показываем, как этот кодировщик обобщается на настройки вне области, а также на невидимую задачу извлечения в реальных предприятиях.

Ядра DPO: Семантически осознанный, улучшенный ядром и богатый дивергенцией парадигма для прямой оптимизации предпочтений.
DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Jan 5

ByAmitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha

Быстрый рост крупных языковых моделей (LLM) открыл множество приложений, но также подчеркивает сложность их выравнивания с различными ценностями и предпочтениями. Прямая оптимизация предпочтений (DPO) является центральной для выравнивания, но ограничена фиксированными расхождениями и ограниченными преобразованиями признаков. Мы предлагаем DPO-Kernels, который интегрирует методы ядер для решения этих проблем через четыре ключевых вклада: (i) Ядерные представления с полиномиальными, RBF, Махаланобиса и спектральными ядрами для более богатых преобразований, а также гибридная функция потерь, объединяющая основанные на вложениях и вероятностные цели; (ii) Альтернативы расхождений (Дженсена-Шеннона, Хеллингера, Реньи, Бхаттачария, Вассерштейна и f-расхождения) для большей устойчивости; (iii) Метрики выбора, основанные на данных, которые автоматически выбирают лучшую пару ядер-расхождений; и (iv) Иерархическая смесь ядер как для локальной точности, так и для глобального моделирования. Оценки на 12 наборах данных демонстрируют передовые показатели в области фактичности, безопасности, рассуждений и следования инструкциям. Основанный на регуляризации тяжелых хвостов, DPO-Kernels обеспечивает надежную обобщаемость для LLM, предлагая всесторонний ресурс для дальнейших исследований по выравниванию.

EpiCoder: Охватывая разнообразие и сложность в генерации кода
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li