Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем rStar-Math для демонстрации того, что небольшие языковые модели (SLM) могут соперничать или даже превзойти математическую способность рассуждения OpenAI o1, без дистилляции от более совершенных моделей. rStar-Math достигает этого, используя "глубокое мышление" через Монте-Карло поиск по дереву (MCTS), где математическая политика SLM выполняет поиск во время тестирования, направляемый моделью вознаграждения процесса на основе SLM. rStar-Math вводит три инновации для решения проблем при обучении двух SLM: (1) новый метод синтеза данных CoT с кодом, который выполняет обширные прокрутки MCTS для генерации пошаговых проверенных траекторий рассуждений, используемых для обучения политики SLM; (2) новый метод обучения модели вознаграждения процесса, который избегает наивной аннотации оценки на уровне шага, обеспечивая более эффективную модель предпочтений процесса (PPM); (3) рецепт самоэволюции, в котором политика SLM и PPM создаются с нуля и итеративно эволюционируются для улучшения способностей к рассуждению. Через 4 раунда самоэволюции с миллионами синтезированных решений для 747 тыс. математических проблем, rStar-Math повышает математическое рассуждение SLM до уровня передовых технологий. На бенчмарке MATH он улучшает Qwen2.5-Math-7B с 58,8% до 90,0% и Phi3-mini-3.8B с 41,4% до 86,4%, превосходя o1-preview на +4,5% и +0,9%. На Американской математической олимпиаде (AIME) rStar-Math решает в среднем 53,3% (8 из 15) задач, входя в топ-20% самых ярких старшеклассников по математике. Код и данные будут доступны по адресу https://github.com/microsoft/rStar.
Мы предлагаем новую концепцию, мета-цепочку мыслей (Meta-CoT), которая расширяет традиционную цепочку мыслей (CoT), явно моделируя базовое рассуждение, необходимое для формирования определенной CoT. Мы представляем эмпирические доказательства от современных моделей, демонстрирующих поведение, согласующееся с поиском в контексте, и исследуем методы создания Meta-CoT через процессное наблюдение, генерацию синтетических данных и алгоритмы поиска. Наконец, мы излагаем конкретный план обучения модели для создания Meta-CoTs, включая настройку инструкций с линеаризованными следами поиска и обучение с подкреплением после обучения. Наконец, мы обсуждаем открытые исследовательские вопросы, включая законы масштабирования, роли верификаторов и потенциал обнаружения новых алгоритмов рассуждения. Эта работа предоставляет теоретическую и практическую дорожную карту для внедрения Meta-CoT в LLMs, открывая путь к более мощному и человекоподобному рассуждению в искусственном интеллекте.
Исторически научное открытие было длительным и затратным процессом, требующим значительного времени и ресурсов от начальной концепции до конечных результатов. Для ускорения научного открытия, снижения издержек на исследования и улучшения качества исследований мы представляем Agent Laboratory, автономную платформу на основе LLM, способную завершить весь исследовательский процесс. Эта платформа принимает идею исследования, предоставленную человеком, и проходит через три этапа - обзор литературы, экспериментирование и написание отчета для создания комплексных исследовательских результатов, включая репозиторий кода и исследовательский отчет, позволяя пользователям давать обратную связь и руководство на каждом этапе. Мы развернули Agent Laboratory с различными передовыми LLM и пригласили нескольких исследователей оценить его качество, участвуя в опросе, предоставляя человеческую обратную связь для руководства исследовательским процессом, а затем оценивая окончательную статью. Мы обнаружили, что: (1) Agent Laboratory, управляемый o1-preview, дает лучшие исследовательские результаты; (2) Сгенерированный код машинного обучения способен достичь передовой производительности по сравнению с существующими методами; (3) Участие человека, предоставляющего обратную связь на каждом этапе, значительно улучшает общее качество исследований; (4) Agent Laboratory значительно снижает издержки на исследования, достигая сокращения на 84% по сравнению с предыдущими автономными методами исследований. Мы надеемся, что Agent Laboratory позволит исследователям направить больше усилий на творческое мышление, а не на низкоуровневое программирование и написание, в конечном итоге ускоряя научное открытие.
Рассуждение по цепочке (CoT) широко применяется в математическом рассуждении моделей больших языков (LLM). Недавно внедрение процесса дифференциации на траектории CoT вызвало обсуждения о повышении масштабируемости во время тестирования, тем самым увеличивая потенциал этих моделей. Однако в мультимодальном математическом рассуждении недостаток качественных данных для обучения CoT препятствовал существующим моделям достижению высокоточного рассуждения по CoT и ограничил реализацию потенциала рассуждения во время тестирования. В данной работе мы предлагаем стратегию синтеза из трех модулей, которая интегрирует дистилляцию CoT, переписывание формата траектории и унификацию формата. Это приводит к созданию качественного набора данных для настройки инструкций рассуждения по CoT в мультимодальной математике, MMathCoT-1M. Мы всесторонне проверяем современное состояние (SOTA) производительности обученной модели URSA-7B на нескольких мультимодальных математических бенчмарках. Для масштабирования во время тестирования мы предлагаем стратегию синтеза данных, которая автоматически генерирует наборы данных с аннотациями процесса, известные как DualMath-1.1M, с акцентом на интерпретацию и логику. После дополнительного обучения URSA-7B на DualMath-1.1M, мы переходим от возможностей рассуждения по CoT к устойчивым способностям надзора. Обученная модель URSA-RM-7B действует как верификатор, эффективно повышая производительность URSA-7B во время тестирования. URSA-RM-7B также демонстрирует отличные способности верификации вне распределения (OOD), показывая свою обобщенность. Веса модели, обучающие данные и код будут опубликованы в открытом доступе.
В последние годы быстрое развитие крупных языковых моделей (LLM) преобразовало ландшафт научных исследований, предлагая беспрецедентную поддержку на различных этапах исследовательского цикла. В данной статье представлен первый систематический обзор, посвященный изучению того, как LLM революционизируют процесс научных исследований. Мы анализируем уникальные роли, которые LLM играют на четырех критических этапах исследований: обнаружение гипотез, планирование и реализация экспериментов, научное письмо и рецензирование. Наш обзор всесторонне демонстрирует методологии, специфичные для задач, и оценочные критерии. Идентифицируя текущие проблемы и предлагая направления для будущих исследований, этот обзор не только подчеркивает трансформационный потенциал LLM, но и стремится вдохновить и направить исследователей и практиков в использовании LLM для продвижения научного поиска. Ресурсы доступны в следующем репозитории: https://github.com/du-nlp-lab/LLM4SR
Агенты графического пользовательского интерфейса (GUI), оснащенные мультимодальными большими языковыми моделями (MLLM), показали большой потенциал для автоматизации задач на вычислительных устройствах, таких как компьютеры и мобильные телефоны. Однако существующие агенты сталкиваются с вызовами в многоэтапном рассуждении и зависимости от текстовых аннотаций, что ограничивает их эффективность. Мы представляем InfiGUIAgent, агента GUI на основе MLLM, обученного с использованием двухэтапного процесса обучения с учителем. Этап 1 улучшает основные навыки, такие как понимание GUI и закрепление, в то время как этап 2 интегрирует иерархическое рассуждение и рассуждение на основе ожиданий-отражения, используя синтезированные данные для обеспечения встроенных рассуждений агентов. InfiGUIAgent достигает конкурентоспособной производительности на нескольких бенчмарках GUI, подчеркивая влияние встроенных навыков рассуждения на улучшение взаимодействия с GUI для задач автоматизации. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiGUIAgent.
Техники извлечения документов являются основой для разработки информационных систем большого масштаба. Преобладающей методологией является построение би-кодировщика и вычисление семантической схожести. Однако такая скалярная схожесть затрудняет отражение достаточного количества информации и затрудняет наше понимание результатов извлечения. Кроме того, этот вычислительный процесс в основном подчеркивает глобальную семантику и игнорирует мелкозернистые семантические отношения между запросом и сложным текстом в документе. В данной статье мы предлагаем новый метод под названием Генеративно-усиленное извлечение (GeAR), который включает в себя хорошо спроектированные модули слияния и декодирования. Это позволяет GeAR генерировать соответствующий текст из документов на основе объединенного представления запроса и документа, обучаясь "фокусироваться" на мелкозернистой информации. Кроме того, при использовании в качестве извлекателя, GeAR не добавляет никакой вычислительной нагрузки по сравнению с би-кодировщиками. Для поддержки обучения новой структуры мы представили конвейер для эффективного синтеза высококачественных данных с использованием больших языковых моделей. GeAR демонстрирует конкурентоспособные показатели извлечения и локализации в различных сценариях и наборах данных. Более того, качественный анализ и результаты, полученные GeAR, предоставляют новые идеи для интерпретации результатов извлечения. Код, данные и модели будут опубликованы после завершения технического обзора для облегчения будущих исследований.
В данной статье мы расширяем границы создания трехмерных изображений с тонкой детализацией в поистине творческую область. Существующие методы либо лишены сложных деталей, либо просто имитируют существующие объекты — мы же позволяем обеим вариантам. Подняв понимание тонкой детализации с двумерного уровня на трехмерный с помощью многозрительной диффузии и моделирования частей как непрерывных распределений, мы разблокируем возможность создания совершенно новых, но правдоподобных частей путем интерполяции и выборки. Потеря самонаблюдения при согласовании признаков дополнительно обеспечивает стабильное создание этих невидимых частей. Результатом стало первое система, способная создавать новые трехмерные объекты с деталями, характерными для определенных видов, которые превосходят существующие примеры. Хотя мы продемонстрировали наш подход на птицах, базовая структура распространяется за пределы того, что может щебетать! Код будет опубликован по адресу https://github.com/kamwoh/chirpy3d.
Мы исследуем проблему восстановления трехмерных объектов по одному изображению. Недавние работы разделились на два направления: моделирование на основе регрессии и генеративное моделирование. Методы регрессии эффективно выводят видимые поверхности, но испытывают трудности с закрытыми областями. Генеративные методы лучше справляются с неопределенными областями, моделируя распределения, но являются вычислительно затратными, и генерация часто не совпадает с видимыми поверхностями. В данной статье мы представляем SPAR3D, новый двухэтапный подход, целью которого является объединение лучших аспектов обоих направлений. Первый этап SPAR3D генерирует разреженные облака точек в 3D с использованием легкой модели диффузии точек, обладающей быстрой скоростью выборки. Второй этап использует как сэмплированное облако точек, так и входное изображение для создания высокодетализированных сеток. Наше двухэтапное решение позволяет вероятностное моделирование плохо обусловленной задачи восстановления трехмерных объектов по одному изображению, сохраняя при этом высокую вычислительную эффективность и отличное качество выходных данных. Использование облаков точек в качестве промежуточного представления также позволяет интерактивное редактирование пользователем. Протестированный на различных наборах данных, SPAR3D демонстрирует превосходное качество по сравнению с предыдущими передовыми методами, обеспечивая скорость вывода 0,7 секунды. Страница проекта с кодом и моделью: https://spar3d.github.io
Эффективная настройка инструкций необходима для оптимизации кода LLMs, согласования поведения модели с ожиданиями пользователей и улучшения производительности модели в реальных приложениях. Однако большинство существующих методов сосредоточены на фрагментах кода, ограниченных определенными функциональностями и жесткими структурами, что ограничивает сложность и разнообразие синтезированных данных. Для преодоления этих ограничений мы представляем новую синтезирующую структуру на основе деревьев признаков, вдохновленную абстрактными синтаксическими деревьями (AST). В отличие от AST, который захватывает синтаксическую структуру кода, наша структура моделирует семантические отношения между элементами кода, обеспечивая генерацию более тонких и разнообразных данных. Дерево признаков строится из исходных данных и итеративно уточняется для увеличения количества и разнообразия извлеченных признаков. Этот процесс позволяет выявлять более сложные шаблоны и отношения внутри кода. Путем выборки поддеревьев с контролируемой глубиной и шириной наша структура позволяет точно настраивать сложность сгенерированного кода, поддерживая широкий спектр задач от простых операций на уровне функций до сложных сценариев с несколькими файлами. Мы донастраивали широко используемые базовые модели для создания серии EpiCoder, достигая передовой производительности как на уровне функций, так и файлов по нескольким бенчмаркам. Особенно важно, что эмпирические данные указывают на значительный потенциал нашего подхода в синтезе высоко сложных данных кода на уровне репозитория. Дальнейший анализ разъясняет преимущества этого подхода путем тщательной оценки сложности и разнообразия данных с помощью принципов инженерии программного обеспечения и метода LLM-как-судьи.
Быстрый рост крупных языковых моделей (LLM) открыл множество приложений, но также подчеркивает сложность их выравнивания с различными ценностями и предпочтениями. Прямая оптимизация предпочтений (DPO) является центральной для выравнивания, но ограничена фиксированными расхождениями и ограниченными преобразованиями признаков. Мы предлагаем DPO-Kernels, который интегрирует методы ядер для решения этих проблем через четыре ключевых вклада: (i) Ядерные представления с полиномиальными, RBF, Махаланобиса и спектральными ядрами для более богатых преобразований, а также гибридная функция потерь, объединяющая основанные на вложениях и вероятностные цели; (ii) Альтернативы расхождений (Дженсена-Шеннона, Хеллингера, Реньи, Бхаттачария, Вассерштейна и f-расхождения) для большей устойчивости; (iii) Метрики выбора, основанные на данных, которые автоматически выбирают лучшую пару ядер-расхождений; и (iv) Иерархическая смесь ядер как для локальной точности, так и для глобального моделирования. Оценки на 12 наборах данных демонстрируют передовые показатели в области фактичности, безопасности, рассуждений и следования инструкциям. Основанный на регуляризации тяжелых хвостов, DPO-Kernels обеспечивает надежную обобщаемость для LLM, предлагая всесторонний ресурс для дальнейших исследований по выравниванию.
Поисково-улучшенная генерация (RAG) стала неотъемлемой частью при развертывании больших языковых моделей (LLM), поскольку она способна решить типичные ограничения, такие как генерация галлюцинаций или устаревшей информации. Однако при создании прикладных приложений RAG для реального мира возникают практические проблемы. Во-первых, извлеченная информация обычно специфична для области. Поскольку настройка LLM методом дообучения является вычислительно затратной, более целесообразно дообучить извлекателя для улучшения качества данных, включаемых во вход LLM. Во-вторых, по мере развертывания большего числа приложений в одной и той же системе реального мира невозможно развернуть отдельные извлекатели. Более того, эти приложения RAG обычно извлекают различные типы данных. Нашим решением является инструкционное дообучение небольшого кодировщика извлекателя на различных задачах, специфичных для области, что позволяет нам развернуть один кодировщик, который может обслуживать множество случаев использования, обеспечивая тем самым низкую стоимость, масштабируемость и скорость. Мы показываем, как этот кодировщик обобщается на настройки вне области, а также на невидимую задачу извлечения в реальных предприятиях.