Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем InternVL3 — значительный шаг вперед в серии InternVL, который характеризуется нативной мультимодальной парадигмой предварительного обучения. В отличие от адаптации текстовой крупной языковой модели (LLM) в мультимодальную крупную языковую модель (MLLM), поддерживающую визуальные входные данные, InternVL3 одновременно приобретает мультимодальные и лингвистические способности на основе разнообразных мультимодальных данных и текстовых корпусов в рамках единого этапа предварительного обучения. Этот унифицированный подход эффективно решает сложности и проблемы согласования, часто возникающие в традиционных пост-обучающих конвейерах для MLLM. Для дальнейшего повышения производительности и масштабируемости InternVL3 включает переменное визуальное позиционное кодирование (V2PE) для поддержки расширенных мультимодальных контекстов, использует передовые методы пост-обучения, такие как контролируемая тонкая настройка (SFT) и смешанная оптимизация предпочтений (MPO), а также применяет стратегии масштабирования на этапе тестирования вместе с оптимизированной инфраструктурой обучения. Многочисленные эмпирические оценки демонстрируют, что InternVL3 обеспечивает превосходную производительность в широком спектре мультимодальных задач. В частности, InternVL3-78B достигает показателя 72.2 на бенчмарке MMMU, устанавливая новый рекорд среди открытых MLLM. Его возможности остаются высококонкурентоспособными по сравнению с ведущими проприетарными моделями, включая ChatGPT-4o, Claude 3.5 Sonnet и Gemini 2.5 Pro, при этом сохраняя сильные навыки в чисто языковых задачах. В соответствии с принципами открытой науки, мы опубликуем как данные для обучения, так и веса модели, чтобы способствовать дальнейшим исследованиям и разработкам в области MLLM следующего поколения.
Появление DeepSeek R1 и QwQ 32B преодолело барьеры производительности для запуска передовых больших языковых моделей (LLM) на домашних устройствах. Хотя потребительское оборудование становится мощнее, а квантование моделей совершенствуется, существующие решения для конечных устройств по-прежнему требуют кластеров GPU, большого объема оперативной памяти (RAM/VRAM) и высокой пропускной способности, что значительно превышает возможности обычного домашнего кластера. В данной статье представлена система распределенного вывода prima.cpp, которая позволяет запускать модели масштаба 70B на повседневных домашних устройствах, используя комбинацию CPU/GPU, низкий объем RAM/VRAM, Wi-Fi и кросс-платформенную поддержку. Она использует mmap для управления весами модели и внедряет конвейерный кольцевой параллелизм с предварительной загрузкой для скрытия задержек при чтении с диска. Моделируя неоднородность в вычислениях, коммуникации, дисковых операциях, памяти (и её управлении) и операционной системе, система оптимально распределяет слои модели между CPU и GPU каждого устройства, дополнительно снижая задержку на токен. Для решения этой NP-трудной задачи распределения предложен элегантный алгоритм Halda. Мы оцениваем prima.cpp на стандартном домашнем кластере из четырех узлов. Она превосходит llama.cpp, exo и dllama на моделях 30B+, сохраняя нагрузку на память ниже 6%. Это делает передовые модели масштаба 30B-70B, такие как Llama 3, DeepSeek R1, Qwen 2.5 и QwQ, доступными для домашних ассистентов, делая передовые технологии ИИ действительно доступными для каждого. Код является открытым и доступен по адресу https://github.com/Lizonghang/prima.cpp.
Мультимодальная модель GPT-4o от OpenAI продемонстрировала впечатляющие возможности в генерации и редактировании изображений, однако её способность к семантическому синтезу, основанному на знаниях о мире — бесшовному объединению предметных знаний, контекстного рассуждения и следования инструкциям — остаётся недоказанной. В данном исследовании мы систематически оцениваем эти способности по трём ключевым направлениям: (1) Глобальное следование инструкциям, (2) Точность детального редактирования и (3) Постгенеративное рассуждение. Хотя существующие тесты подчеркивают сильные стороны GPT-4o в генерации и редактировании изображений, наша оценка выявляет устойчивые ограничения модели: она часто прибегает к буквальной интерпретации инструкций, непостоянно применяет ограничения, основанные на знаниях, и испытывает трудности с задачами условного рассуждения. Эти результаты ставят под сомнение преобладающие представления о едином понимании и генеративных возможностях GPT-4o, выявляя значительные пробелы в её динамической интеграции знаний. Наше исследование призывает к разработке более надежных тестов и стратегий обучения, выходящих за рамки поверхностного соответствия, с акцентом на контекстно-ориентированную и обоснованную рассуждениями мультимодальную генерацию.
Недавно медленно мыслящие системы, такие как GPT-o1 и DeepSeek-R1, продемонстрировали значительный потенциал в решении сложных задач благодаря явному процессу рефлексии. Они существенно превосходят лучшие быстро мыслящие модели, такие как GPT-4o, на различных тестах по математике и естественным наукам. Однако их способности к мультимодальным рассуждениям остаются на уровне быстро мыслящих моделей. Например, производительность GPT-o1 на тестах MathVista, MathVerse и MathVision схожа с результатами быстро мыслящих моделей. В данной работе мы стремимся улучшить медленно мыслящие способности моделей, работающих с визуальными и языковыми данными, с использованием обучения с подкреплением (без применения дистилляции), чтобы продвинуть состояние искусства. Сначала мы адаптируем алгоритм GRPO с новой техникой, называемой Selective Sample Replay (SSR), для решения проблемы исчезающих преимуществ. Хотя этот подход демонстрирует высокую производительность, результирующие модели, обученные с подкреплением, показывают ограниченную способность к саморефлексии или самопроверке. Чтобы дополнительно стимулировать медленное мышление, мы вводим метод Forced Rethinking, который добавляет текстовый триггер для переосмысления в конце начальных этапов обучения с подкреплением, явно принуждая модель к шагу саморефлексии. Комбинируя эти две техники, наша модель VL-Rethinker достигает новых рекордных показателей на тестах MathVista, MathVerse и MathVision, составляющих 80,3%, 61,8% и 43,9% соответственно. VL-Rethinker также устанавливает новый рекорд среди открытых моделей на междисциплинарных тестах, таких как MMMU-Pro, EMMA и MEGA-Bench, сокращая разрыв с GPT-o1.
Мы представляем FUSION — семейство мультимодальных больших языковых моделей (MLLM), основанных на парадигме полного согласования и интеграции визуальной и языковой информации. В отличие от существующих методов, которые в основном полагаются на взаимодействие модальностей на поздних этапах декодирования в LLM, наш подход обеспечивает глубокую и динамическую интеграцию на протяжении всего процесса обработки. Для этого мы предлагаем Text-Guided Unified Vision Encoding, который включает текстовую информацию в процесс кодирования визуальных данных, достигая интеграции на уровне пикселей. Мы также разработали Context-Aware Recursive Alignment Decoding, который рекурсивно агрегирует визуальные признаки с учетом текстового контекста во время декодирования, что позволяет достичь детальной семантической интеграции на уровне вопросов. Для управления отображением признаков и минимизации расхождений между модальностями мы создали Dual-Supervised Semantic Mapping Loss. Кроме того, мы создали синтезированный набор данных Synthesized Language-Driven Question-Answer (QA) с использованием нового метода синтеза данных, уделяя особое внимание высококачественным парам вопрос-ответ для оптимизации текстово-ориентированной интеграции признаков. На основе этих разработок мы обучили FUSION в двух масштабах — 3B и 8B — и продемонстрировали, что наш подход к полной интеграции модальностей значительно превосходит существующие методы, используя всего 630 визуальных токенов. Примечательно, что FUSION 3B превосходит Cambrian-1 8B и Florence-VL 8B на большинстве бенчмарков. FUSION 3B продолжает превосходить Cambrian-1 8B даже при ограничении в 300 визуальных токенов. Наши исследования показывают, что FUSION превосходит LLaVA-NeXT на более чем половине бенчмарков при одинаковой конфигурации без динамического разрешения, что подчеркивает эффективность нашего подхода. Мы публикуем наш код, веса модели и набор данных. https://github.com/starriver030515/FUSION
Генерация высококачественного кода, решающего сложные программные задачи, является сложной задачей, особенно с использованием современных декодерных моделей, которые производят высокостохастические выходные данные. В генерации кода даже незначительные ошибки могут легко нарушить работоспособность всего решения. Использование множества сэмплированных решений может значительно повысить общее качество выходных данных. Одним из эффективных способов улучшения генерации кода является сочетание модели генерации кода с моделью ранжирования, которая выбирает лучшее решение из сгенерированных образцов. Мы предлагаем новый итеративный подход к самообучению моделей ранжирования с использованием оптимизации проксимальной политики (PPO), направленный на улучшение как точности ранжирования, так и всего процесса генерации кода. В отличие от традиционных подходов PPO, где основное внимание уделяется оптимизации генеративной модели с помощью модели вознаграждения, наш подход делает акцент на разработке устойчивой модели вознаграждения/ранжирования. Эта модель повышает качество генерируемого кода через ранжирование и устраняет проблемы и ошибки, которые модель вознаграждения может упустить в процессе согласования PPO с моделью ранжирования. Наш метод итеративно улучшает обучающий набор данных путем переоценки выходных данных, выявления высоко оцененных негативных примеров и их включения в обучающий цикл, что повышает производительность модели. Наша оценка на наборе данных MultiPL-E демонстрирует, что наша модель с 13,4 миллиардами параметров превосходит модель с 33 миллиардами параметров по качеству генерации кода, при этом работая в три раза быстрее. Более того, она достигает производительности, сопоставимой с GPT-4, и превосходит её в одном из языков программирования.
Понимание длинных видеоконтекстов в мультимодальных больших языковых моделях (MLLMs) сталкивается с критической проблемой: необходимостью баланса между вычислительной эффективностью и сохранением детализированных пространственно-временных паттернов. Существующие подходы (например, разреженная выборка, плотная выборка с низким разрешением и сжатие токенов) страдают от значительной потери информации в динамике временных изменений, пространственных деталях или тонких взаимодействиях, особенно в видео со сложным движением или изменяющимся разрешением. Для решения этой проблемы мы предлагаем Mavors — новый фреймворк, который вводит мультигранулярное представление видео для целостного моделирования длинных видео. В частности, Mavors напрямую кодирует исходное видео в латентные представления с помощью двух ключевых компонентов: 1) внутрифрагментного визуального энкодера (IVE), который сохраняет пространственные признаки высокого разрешения с использованием 3D-сверток и Vision Transformers, и 2) межфрагментного агрегатора признаков (IFA), который устанавливает временную согласованность между фрагментами с помощью трансформерного моделирования зависимостей с использованием ротационных позиционных кодирований на уровне фрагментов. Кроме того, фреймворк унифицирует понимание изображений и видео, рассматривая изображения как однофреймовые видео через декомпозицию субизображений. Эксперименты на различных бенчмарках демонстрируют превосходство Mavors в сохранении как пространственной точности, так и временной непрерывности, значительно превосходя существующие методы в задачах, требующих детализированного пространственно-временного анализа.
Веб-агенты позволяют пользователям выполнять задачи в веб-браузерах через взаимодействие на естественном языке. Оценка траекторий веб-агентов является важной задачей, так как она помогает определить, успешно ли агент выполнил поставленные задачи. Для этой цели широко используются методы, основанные на правилах, однако их сложно адаптировать к новым задачам, и они не всегда могут распознать успешные траектории. Более высокой точности можно достичь с помощью экспертной оценки, но этот процесс значительно медленнее и дороже. Автоматическая оценка с использованием крупных языковых моделей (LLM) может избежать сложностей, связанных с разработкой новых правил и ручной аннотацией траекторий, обеспечивая более быструю и экономичную оценку. Однако остается неясным, насколько эффективны такие методы для оценки веб-агентов. В связи с этим мы представляем AgentRewardBench — первый бенчмарк для оценки эффективности LLM в качестве судей для веб-агентов. AgentRewardBench содержит 1302 траектории из 5 бенчмарков и 4 LLM. Каждая траектория в AgentRewardBench проверяется экспертом, который отвечает на вопросы, касающиеся успешности, побочных эффектов и повторяемости действий агента. Используя наш бенчмарк, мы оцениваем 12 LLM-судей и обнаруживаем, что ни одна из моделей не превосходит остальные по всем бенчмаркам. Мы также выясняем, что оценка на основе правил, используемая в распространенных бенчмарках, склонна занижать уровень успешности веб-агентов, что подчеркивает ключевой недостаток такого подхода и необходимость разработки более гибких методов автоматической оценки. Бенчмарк доступен по адресу: https://agent-reward-bench.github.io.
Мы представляем S1-Bench — новый эталонный тест, разработанный для оценки производительности крупных моделей рассуждений (LRMs) на простых задачах, которые требуют интуитивного мышления системы 1, а не аналитического мышления системы 2. Хотя LRMs достигли значительных прорывов в сложных задачах рассуждений благодаря явным цепочкам мыслей, их зависимость от глубокого аналитического мышления может ограничивать их способности к мышлению системы 1. Более того, в настоящее время отсутствует эталонный тест для оценки производительности LRMs в задачах, требующих таких способностей. Чтобы заполнить этот пробел, S1-Bench предлагает набор простых, разнообразных и интуитивно понятных вопросов из различных областей и языков, специально разработанных для оценки производительности LRMs в таких задачах. Наше всестороннее тестирование 22 LRMs выявило значительную тенденцию к снижению эффективности: их ответы в среднем в 15,5 раз длиннее, чем у традиционных небольших языковых моделей (LLMs). Кроме того, LRMs часто находят правильные ответы на ранних этапах, но продолжают излишне углубляться в рассуждения, причем некоторые модели даже допускают множество ошибок. Эти результаты подчеркивают жесткие шаблоны рассуждений современных LRMs и указывают на необходимость существенного развития для достижения сбалансированных возможностей двойного мышления, которые могут адаптироваться к сложности задачи.
Недавние достижения в области посттренинга на основе обучения с подкреплением (RL) привели к значительным улучшениям в работе крупных языковых моделей (LLM), особенно в усилении их способностей к рассуждению для выполнения сложных задач. Однако большинство существующих методов рассматривают обучающие данные как единое целое, игнорируя тот факт, что современное обучение LLM часто включает данные из различных распределений, различающихся как по источнику, так и по сложности. Эта неоднородность создает ключевую проблему: как адаптивно планировать обучение по различным распределениям для оптимизации эффективности обучения. В данной статье мы представляем принципиальную структуру обучения по учебному плану, основанную на понятии обучаемости на уровне распределения. Наше ключевое наблюдение заключается в том, что величина преимуществ политики отражает, насколько модель может еще выиграть от дальнейшего обучения на данном распределении. На основе этого мы предлагаем структуру обучения по учебному плану на уровне распределения для посттренинга LLM на основе RL, которая использует принцип Верхней Доверительной Границы (UCB) для динамической корректировки вероятностей выборки для различных распределений. Этот подход отдает приоритет распределениям с либо высоким средним преимуществом (эксплуатация), либо низким количеством выборок (исследование), что приводит к адаптивному и теоретически обоснованному графику обучения. Мы реализуем нашу структуру обучения по учебному плану с использованием GRPO в качестве базового алгоритма RL и демонстрируем ее эффективность на наборах данных для логического рассуждения с различными уровнями сложности и источниками. Наши эксперименты показывают, что наша структура значительно улучшает скорость сходимости и итоговую производительность, подчеркивая ценность стратегий обучения по учебному плану, учитывающих распределение, в посттренинге LLM. Код: https://github.com/ZhentingWang/DUMP.
Представления изображений часто оцениваются с помощью разрозненных, узкоспециализированных протоколов, что приводит к фрагментарному пониманию возможностей моделей. Например, неясно, будет ли модель, эффективно кластеризующая изображения, столь же хороша в поиске релевантных изображений по текстовому запросу. Мы представляем Massive Image Embedding Benchmark (MIEB) для оценки производительности моделей, работающих с изображениями и изображениями-текстами, на самом широком на сегодняшний день спектре задач. MIEB охватывает 38 языков и 130 отдельных задач, которые мы объединили в 8 высокоуровневых категорий. Мы протестировали 50 моделей на нашем бенчмарке и обнаружили, что ни один метод не доминирует во всех категориях задач. Мы выявили скрытые возможности современных моделей компьютерного зрения, такие как их точное визуальное представление текстов, а также их пока ограниченные способности в области переплетенных кодирований и сопоставления изображений и текстов в условиях наличия смешивающих факторов. Мы также показываем, что производительность кодировщиков изображений на MIEB сильно коррелирует с их производительностью при использовании в мультимодальных больших языковых моделях. Наш код, набор данных и таблица лидеров доступны по адресу https://github.com/embeddings-benchmark/mteb.
Социальное моделирование трансформирует традиционные исследования в области социальных наук, моделируя поведение человека через взаимодействия между виртуальными индивидами и их окружением. С недавними достижениями в области больших языковых моделей (LLM) этот подход демонстрирует растущий потенциал в улавливании индивидуальных различий и прогнозировании группового поведения. Однако существующие методы сталкиваются с проблемами согласования, связанными с окружением, целевыми пользователями, механизмами взаимодействия и поведенческими паттернами. В связи с этим мы представляем SocioVerse — мировую модель для социального моделирования, основанную на агентах LLM. Наша структура включает четыре мощных компонента согласования и пул пользователей из 10 миллионов реальных индивидов. Для проверки её эффективности мы провели масштабные симуляционные эксперименты в трёх различных областях: политике, новостях и экономике. Результаты показывают, что SocioVerse способна отражать динамику крупномасштабных популяций, обеспечивая при этом разнообразие, достоверность и репрезентативность благодаря стандартизированным процедурам и минимальным ручным корректировкам.
Агенты с графическим пользовательским интерфейсом (GUI) предлагают кросс-платформенные решения для автоматизации сложных цифровых задач, обладая значительным потенциалом для преобразования рабочих процессов и повышения производительности. Однако их производительность часто ограничивается недостатком высококачественных данных о траекториях. Чтобы устранить это ограничение, мы предлагаем обучать модели, объединяющие зрение и язык (Vision Language Models, VLMs), на задачах, насыщенных данными и требующих интенсивного логического мышления, в рамках специального промежуточного этапа обучения, а затем исследовать, как включение этих задач способствует обобщению для сценариев планирования в GUI. В частности, мы изучаем ряд задач с доступными данными для настройки инструкций, включая восприятие GUI, мультимодальное логическое мышление и текстовое рассуждение. В ходе масштабных экспериментов с 11 промежуточными задачами обучения мы демонстрируем, что: (1) Обобщение задач оказывается высокоэффективным, приводя к значительным улучшениям в большинстве случаев. Например, мультимодальное математическое рассуждение повышает производительность на AndroidWorld на абсолютные 6,3%. Примечательно, что текстовые математические данные значительно улучшают производительность веб-агентов GUI, достигая улучшения на 5,6% на WebArena и 5,4% на AndroidWorld, что подчеркивает заметное кросс-модальное обобщение от текстовых к визуальным доменам; (2) Вопреки предыдущим предположениям, данные о восприятии GUI, которые ранее считались тесно связанными с задачами GUI-агентов и широко использовались для обучения, оказывают сравнительно ограниченное влияние на итоговую производительность; (3) Опираясь на эти выводы, мы определяем наиболее эффективные промежуточные задачи обучения и создаем оптимизированные наборы данных, что приводит к абсолютному улучшению производительности на 8,0% на WebArena и 12,2% на AndroidWorld. Наша работа предоставляет ценные инсайты о кросс-доменном переносе знаний для GUI-агентов и предлагает практический подход к решению проблем нехватки данных в этой развивающейся области. Код, данные и модели будут доступны по адресу https://github.com/hkust-nlp/GUIMid.
В последнее время значительный прогресс был достигнут в улучшении способности к рассуждению крупных мультимодальных моделей (LMMs) с использованием обучения с подкреплением. Однако большинство существующих работ основаны на высокоинтенсивных наборах данных, таких как математика и программирование, и исследователи обычно выбирают крупномасштабные модели в качестве основы. Мы считаем, что изучение способностей к рассуждению у моделей малого масштаба остается ценным для исследователей с ограниченными вычислительными ресурсами. Более того, наделение моделей возможностью объяснять свои процессы рассуждения на общих наборах данных для вопросов и ответов также является значимым. Поэтому мы представляем модель малого масштаба для рассуждений на видео TinyLLaVA-Video-R1. Основанная на TinyLLaVA-Video, модели для понимания видео, обученной с возможностью отслеживания и содержащей не более 4 миллиардов параметров, она не только демонстрирует значительное улучшение способностей к рассуждению и мышлению после использования обучения с подкреплением на общих наборах данных Video-QA, но также проявляет эмерджентную характеристику "моментов озарения". Кроме того, мы делимся серией экспериментальных результатов, стремясь предоставить практические инсайты для будущего исследования способностей к рассуждению (мышлению) на видео в моделях малого масштаба. Модель доступна по адресу https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
Искусственный интеллект (ИИ) играет всё более важную роль в трансформации процесса научных открытий. Мы представляем The AI Scientist-v2 — сквозную агентную систему, способную создавать первые полностью сгенерированные ИИ научные работы, принятые на рецензируемых семинарах. Эта система итеративно формулирует научные гипотезы, проектирует и проводит эксперименты, анализирует и визуализирует данные, а также автономно пишет научные статьи. По сравнению с её предшественником (v1, Lu et al., 2024, arXiv:2408.06292), The AI Scientist-v2 устраняет зависимость от шаблонов кода, созданных человеком, эффективно обобщает знания в различных областях машинного обучения и использует новую прогрессивную методику агентного поиска по дереву, управляемую специальным агентом-менеджером экспериментов. Кроме того, мы улучшили компонент ИИ-рецензента, интегрировав цикл обратной связи на основе Vision-Language Model (VLM) для итеративного улучшения содержания и эстетики графических материалов. Мы оценили The AI Scientist-v2, отправив три полностью автономные статьи на рецензируемый семинар ICLR. Примечательно, что одна из работ получила достаточно высокие оценки, чтобы превысить средний порог принятия для работ, написанных людьми, что стало первым случаем успешного прохождения рецензирования полностью сгенерированной ИИ статьи. Это достижение подчеркивает растущие возможности ИИ в проведении всех аспектов научных исследований. Мы ожидаем, что дальнейшие разработки в области автономных технологий научных открытий окажут глубокое влияние на генерацию человеческих знаний, обеспечив беспрецедентную масштабируемость исследовательской продуктивности и значительно ускорив научные прорывы, что принесёт огромную пользу обществу. Мы открыли исходный код системы на https://github.com/SakanaAI/AI-Scientist-v2, чтобы способствовать дальнейшему развитию этой трансформационной технологии. Мы также обсуждаем роль ИИ в науке, включая вопросы безопасности ИИ.
Ученые часто выводят абстрактные процедуры из конкретных примеров задач и используют эти абстракции для создания новых, связанных примеров. Например, программы, кодирующие формальные правила и свойства системы, оказались полезными в различных областях — от обучения с подкреплением (процедурные среды) до физики (движки симуляции). Эти программы можно рассматривать как функции, которые выполняются с разными результатами в зависимости от их параметризации (например, конфигурация gridworld или начальные физические условия). Мы вводим термин EFA (Executable Functional Abstraction, Исполняемая Функциональная Абстракция) для обозначения таких программ в контексте математических задач. Конструкции, подобные EFA, уже показали свою полезность для математических рассуждений в качестве генераторов задач для стресс-тестирования моделей. Однако предыдущие работы ограничивались абстракциями для школьной математики (чьи простые правила легко кодировать в программах), тогда как создание EFA для сложной математики до сих пор требовало ручной разработки. Мы исследуем автоматическое создание EFA для сложных математических задач. Мы формулируем задачу автоматического построения EFA как задачу синтеза программ и разрабатываем EFAGen, который использует LLM (языковую модель) для генерации кандидатов в EFA на основе исходной математической задачи и её пошагового решения, сохраняя верность обобщенной задаче и классу решений, лежащих в основе исходной задачи. Кроме того, мы формализуем свойства, которыми должна обладать любая корректная EFA, в виде исполняемых модульных тестов, и показываем, как эти тесты можно использовать в качестве проверяемых наград для обучения LLM, чтобы они лучше писали EFA. Мы демонстрируем, что EFA, созданные EFAGen, ведут себя рационально, оставаясь верными исходным задачам, генерируют вариации задач, пригодные для обучения, и что EFAGen способен выводить EFA из множества разнообразных источников задач уровня математических соревнований. Наконец, мы показываем практическое применение EFA, написанных моделями, например, для поиска вариаций задач, которые сложнее или проще для решения обучающимся, а также для генерации данных.
Эффективное рассуждение играет ключевую роль в решении сложных математических задач. Недавние крупные языковые модели (LLM) значительно улучшили производительность за счет масштабирования вычислений во время тестирования с использованием длинных цепочек рассуждений. Однако трансформерные модели имеют фундаментальные ограничения в увеличении длины контекста из-за их квадратичной вычислительной сложности и линейных требований к памяти. В данной статье мы представляем новую гибридную линейную модель рассуждений на основе RNN, M1, построенную на архитектуре Mamba, которая обеспечивает эффективное использование памяти при выводе. Наш подход использует процесс дистилляции из существующих моделей рассуждений и дополнительно улучшается за счет обучения с подкреплением (RL). Экспериментальные результаты на бенчмарках AIME и MATH показывают, что M1 не только превосходит предыдущие линейные RNN-модели, но и соответствует производительности современных дистиллированных моделей рассуждений Deepseek R1 аналогичного масштаба. Мы также сравниваем скорость генерации нашей модели с высокопроизводительным универсальным движком вывода vLLM и наблюдаем ускорение более чем в 3 раза по сравнению с трансформером того же размера. Благодаря увеличению пропускной способности, мы достигаем более высокой точности по сравнению с дистиллированными трансформерными моделями рассуждений DeepSeek R1 при фиксированном бюджете времени генерации, используя голосование с самосогласованностью. В целом, мы представляем гибридную модель рассуждений на основе Mamba и предлагаем более эффективный подход к масштабированию генерации во время тестирования с использованием самосогласованности или длинных цепочек рассуждений.
Последние достижения в области больших визуально-языковых моделей продемонстрировали впечатляющие возможности. Однако они часто оказываются несостоятельными при решении сложных задач на рассуждение, с которыми люди обычно справляются с помощью визуальных средств и последовательного, пошагового мышления. Хотя существующие методы исследовали текстовое "медленное мышление" или базовую визуальную поддержку, они не способны уловить сложную, переплетённую природу процессов визуально-вербального рассуждения человека. Чтобы преодолеть эти ограничения и вдохновлённые механизмами "медленного мышления" в человеческом познании, мы представляем VisuoThink — новый фреймворк, который органично интегрирует визуально-пространственную и языковую области. VisuoThink способствует мультимодальному "медленному мышлению", обеспечивая прогрессивное визуально-текстовое рассуждение, и включает масштабирование на этапе тестирования с помощью поиска по дереву с опережением. Многочисленные эксперименты показывают, что VisuoThink значительно улучшает способности к рассуждению за счёт масштабирования на этапе вывода, даже без тонкой настройки, достигая передовых результатов в задачах, связанных с геометрией и пространственным мышлением.
Современные крупные языковые модели (LLM) значительно улучшили способности к рассуждению, в основном за счет включения явного, длительного процесса мышления в процесс генерации. В данной статье мы ставим под сомнение необходимость такого явного мышления. Используя передовую модель DeepSeek-R1-Distill-Qwen, мы обнаруживаем, что обход процесса мышления с помощью простого промптинга, обозначенного как NoThinking, может быть удивительно эффективным. При контроле за количеством токенов NoThinking превосходит подход с мышлением на разнообразном наборе из семи сложных задач на рассуждение — включая решение математических задач, формальное доказательство теорем и программирование — особенно в условиях ограниченных ресурсов, например, 51.3 против 28.9 на ACM 23 с 700 токенами. Примечательно, что производительность NoThinking становится более конкурентоспособной с увеличением значения k в метрике pass@k. Опираясь на это наблюдение, мы демонстрируем, что подход параллельного масштабирования, использующий NoThinking для независимой генерации N выходных данных и их агрегации, является высокоэффективным. Для агрегации мы используем специфичные для задачи верификаторы, если они доступны, или применяем простые стратегии best-of-N, такие как выбор на основе уверенности. Наш метод превосходит ряд базовых подходов с аналогичной задержкой, использующих мышление, и сравним с подходом мышления при значительно большей задержке (до 9 раз). Вместе наше исследование побуждает пересмотреть необходимость длительных процессов мышления, а также устанавливает конкурентоспособный ориентир для достижения высоких результатов в рассуждениях в условиях ограниченных ресурсов или при низкой задержке с использованием параллельного масштабирования.
Открытие научных уравнений является фундаментальной задачей в истории научного прогресса, позволяющей выводить законы, управляющие природными явлениями. В последнее время большие языковые модели (LLM) вызывают интерес для решения этой задачи благодаря их способности использовать встроенные научные знания для генерации гипотез. Однако оценка истинных возможностей этих методов в области открытий остается сложной, поскольку существующие тестовые наборы часто опираются на распространенные уравнения, которые могут быть запомнены LLM, что приводит к завышенным показателям производительности, не отражающим реальное открытие. В данной статье мы представляем LLM-SRBench — всеобъемлющий тестовый набор из 239 сложных задач в четырех научных областях, специально разработанный для оценки методов открытия научных уравнений на основе LLM, предотвращая тривиальное запоминание. Наш тестовый набор состоит из двух основных категорий: LSR-Transform, которая преобразует распространенные физические модели в менее распространенные математические представления для проверки способности рассуждать за пределами запомненных форм, и LSR-Synth, которая вводит синтетические задачи, ориентированные на открытие и требующие анализа данных. В ходе масштабной оценки нескольких современных методов с использованием как открытых, так и закрытых LLM мы обнаружили, что лучшая на данный момент система достигает лишь 31,5% символической точности. Эти результаты подчеркивают сложность задачи открытия научных уравнений, позиционируя LLM-SRBench как ценный ресурс для будущих исследований.
Крупные языковые модели обучаются и продолжают обучаться за счет накопления обновлений на основе градиентов, однако то, как отдельные фрагменты новой информации влияют на существующие знания, приводя как к полезному обобщению, так и к проблематичным галлюцинациям, остается малоизученным. Мы демонстрируем, что при изучении новой информации LLM проявляют эффект "прайминга": изучение нового факта может привести к неадекватному применению этого знания в несвязанных контекстах. Для систематического изучения этого феномена мы представляем "Outlandish" — тщательно отобранный набор данных из 1320 разнообразных текстовых образцов, предназначенных для исследования того, как новые знания проникают в существующую базу знаний LLM. Используя этот набор данных, мы показываем, что степень прайминга после изучения новой информации может быть предсказана путем измерения вероятности токенов ключевых слов до обучения. Эта зависимость устойчиво сохраняется для различных архитектур моделей (PALM-2, Gemma, Llama), их размеров и этапов обучения. Наконец, мы разрабатываем два новых метода для модуляции того, как новые знания влияют на существующее поведение модели: (1) стратегию текстовой аугментации "ступенек" и (2) метод обрезки обновлений "ignore-k". Эти подходы снижают нежелательные эффекты прайминга на 50-95%, сохраняя при этом способность модели изучать новую информацию. Наши результаты предоставляют как эмпирические инсайты в процесс обучения LLM, так и практические инструменты для повышения специфичности вставки знаний в языковые модели. Дополнительные материалы: https://sunchipsster1.github.io/projects/outlandish/
Рост популярности AI-персонажей, управляемых крупными языковыми моделями (LLM), вызывает опасения в отношении безопасности, особенно для уязвимых пользователей с психологическими расстройствами. Для устранения этих рисков мы предлагаем EmoAgent — многоагентную AI-систему, предназначенную для оценки и снижения угроз психическому здоровью в процессе взаимодействия человека с ИИ. EmoAgent состоит из двух компонентов: EmoEval моделирует виртуальных пользователей, включая тех, кто изображает психически уязвимых людей, чтобы оценить изменения в психическом состоянии до и после взаимодействия с AI-персонажами. Для оценки психических рисков, вызванных LLM, используются клинически проверенные психологические и психиатрические инструменты (PHQ-9, PDI, PANSS). EmoGuard выступает в роли посредника, отслеживая психическое состояние пользователей, прогнозируя потенциальный вред и предоставляя корректирующие рекомендации для снижения рисков. Эксперименты, проведенные в популярных чат-ботах на основе персонажей, показывают, что эмоционально насыщенные диалоги могут привести к ухудшению психического состояния уязвимых пользователей, причем ухудшение наблюдается более чем в 34,4% симуляций. EmoGuard значительно снижает эти показатели, подчеркивая свою роль в обеспечении более безопасного взаимодействия человека с ИИ. Наш код доступен по адресу: https://github.com/1akaman/EmoAgent.
3D-описание, цель которого заключается в описании содержимого 3D-сцен на естественном языке, остается крайне сложной задачей из-за присущей разреженности облаков точек и слабого межмодального выравнивания в существующих методах. Для решения этих проблем мы предлагаем 3D CoCa — новый унифицированный фреймворк, который бесшовно объединяет контрастивное обучение "визуальный язык" с генерацией 3D-описаний в единой архитектуре. Наш подход использует замороженную основу CLIP для визуального языка, чтобы обеспечить богатые семантические априорные данные, пространственно-осознанный 3D-кодировщик сцены для захвата геометрического контекста и мультимодальный декодер для генерации описательных подписей. В отличие от предыдущих двухэтапных методов, которые полагаются на явные предложения объектов, 3D CoCa совместно оптимизирует контрастивные и описательные цели в общем пространстве признаков, устраняя необходимость во внешних детекторах или ручных предложениях. Этот совместный подход к обучению обеспечивает более сильное пространственное рассуждение и более богатое семантическое заземление за счет выравнивания 3D и текстовых представлений. Масштабные эксперименты на бенчмарках ScanRefer и Nr3D демонстрируют, что 3D CoCa значительно превосходит текущие передовые методы на 10,2% и 5,76% по метрике CIDEr при 0,5IoU соответственно. Код будет доступен по адресу https://github.com/AIGeeksGroup/3DCoCa.
Последние достижения в области больших языковых моделей (LLM) позволили им приблизиться к уровню убеждения, сопоставимому с человеческим. Однако такой потенциал также вызывает опасения относительно рисков безопасности, связанных с убеждением, управляемым LLM, в частности, их способностью к неэтичному влиянию через манипуляции, обман, эксплуатацию уязвимостей и множество других вредоносных тактик. В данной работе мы представляем систематическое исследование безопасности убеждения в LLM через два ключевых аспекта: (1) корректно ли LLM отвергают неэтичные задачи убеждения и избегают неэтичных стратегий в процессе выполнения, включая случаи, когда изначальная цель убеждения кажется этически нейтральной, и (2) как влияющие факторы, такие как черты личности и внешнее давление, сказываются на их поведении. С этой целью мы представляем PersuSafety — первую всеобъемлющую структуру для оценки безопасности убеждения, которая состоит из трех этапов: создание сцены убеждения, симуляция убеждающего диалога и оценка безопасности убеждения. PersuSafety охватывает 6 разнообразных тем неэтичного убеждения и 15 распространенных неэтичных стратегий. В ходе масштабных экспериментов с 8 широко используемыми LLM мы наблюдаем значительные проблемы безопасности в большинстве моделей, включая неспособность распознать вредоносные задачи убеждения и использование различных неэтичных стратегий убеждения. Наше исследование призывает уделить больше внимания улучшению безопасности в прогрессивных и целеориентированных диалогах, таких как убеждение.
Крупные языковые модели (LLM) с поддержкой логического вывода недавно продемонстрировали впечатляющие результаты в сложных логических и математических задачах, однако их эффективность в оценке генерации естественного языка остаётся малоизученной. В данном исследовании проводится систематическое сравнение LLM с поддержкой логического вывода (DeepSeek-R1 и OpenAI o3) с их аналогами без такой поддержки в задачах оценки машинного перевода (MT) и суммаризации текста (TS). Мы оцениваем восемь моделей, охватывающих три архитектурные категории, включая передовые модели с логическим выводом, их дистиллированные варианты (от 8B до 70B параметров) и эквивалентные традиционные LLM без поддержки логического вывода. Наши эксперименты на бенчмарках WMT23 и SummEval показывают, что преимущества логического вывода сильно зависят от модели и задачи: в то время как модели OpenAI o3-mini демонстрируют устойчивое улучшение производительности с увеличением интенсивности логического вывода, DeepSeek-R1 уступает своему варианту без логического вывода, за исключением некоторых аспектов оценки TS. Корреляционный анализ показывает, что увеличение использования токенов логического вывода положительно связано с качеством оценки в моделях o3-mini. Кроме того, наши результаты свидетельствуют, что дистилляция возможностей логического вывода сохраняет приемлемую производительность в моделях среднего размера (32B), но значительно ухудшается в более компактных вариантах (8B). Данная работа представляет собой первое всестороннее исследование LLM с логическим выводом для оценки генерации естественного языка и предлагает практические рекомендации по их использованию.
Мультимодальное рассуждение, объединяющее языковые и визуальные подсказки в процессе решения задач и принятия решений, является фундаментальным аспектом человеческого интеллекта и важным шагом на пути к созданию искусственного общего интеллекта. Однако оценка способностей к мультимодальному рассуждению в мультимодальных больших языковых моделях (MLLMs) остается недостаточной. Большинство существующих тестов на рассуждение ограничены небольшим объемом данных, узкой предметной областью и неструктурированным распределением знаний. Чтобы устранить эти пробелы, мы представляем MDK12-Bench — междисциплинарный бенчмарк, оценивающий способности MLLMs к рассуждению на основе реальных экзаменов K-12. Охватывая шесть дисциплин (математика, физика, химия, биология, география и информатика), наш бенчмарк включает 140 тысяч примеров задач различного уровня сложности — от начальной школы до 12 класса. Он содержит 6 827 аннотаций на уровне знаний, основанных на четко организованной структуре знаний, подробные объяснения ответов, метки сложности и разделение по годам, что обеспечивает надежную платформу для всесторонней оценки. Кроме того, мы предлагаем новую динамическую систему оценки, которая позволяет минимизировать проблемы загрязнения данных за счет изменения форм вопросов, типов задач и стилей изображений в процессе оценки. Обширные эксперименты на MDK12-Bench выявили значительные ограничения современных MLLMs в области мультимодального рассуждения. Результаты, полученные на нашем бенчмарке, дают ценные инсайты для разработки моделей следующего поколения. Наши данные и код доступны по адресу https://github.com/LanceZPF/MDK12.
Для снижения затрат на разработку и обеспечения беспрепятственной интеграции между потенциальными компонентами, составляющими любое приложение генеративного ИИ, недавно был выпущен и получил широкое распространение Протокол контекста модели (Model Context Protocol, MCP) (Anthropic, 2024). MCP представляет собой открытый протокол, стандартизирующий API-вызовы к крупным языковым моделям (LLM), источникам данных и инструментам агентного типа. Подключая несколько серверов MCP, каждый из которых определен с набором инструментов, ресурсов и промптов, пользователи могут создавать автоматизированные рабочие процессы, полностью управляемые LLM. Однако мы показываем, что текущая конструкция MCP несет в себе широкий спектр рисков для безопасности конечных пользователей. В частности, мы демонстрируем, что ведущие в отрасли LLM могут быть вынуждены использовать инструменты MCP для компрометации системы разработчика ИИ с помощью различных атак, таких как выполнение вредоносного кода, удаленное управление доступом и кража учетных данных. Для упреждающего устранения этих и связанных с ними атак мы представляем инструмент аудита безопасности MCPSafetyScanner — первый агентный инструмент для оценки безопасности произвольного сервера MCP. MCPScanner использует несколько агентов для (а) автоматического определения вредоносных образцов с учетом инструментов и ресурсов сервера MCP; (б) поиска связанных уязвимостей и способов их устранения на основе этих образцов; и (в) генерации отчета о безопасности, детализирующего все обнаруженные проблемы. Наша работа подчеркивает серьезные проблемы безопасности, связанные с универсальными агентными рабочими процессами, а также предоставляет упреждающий инструмент для аудита безопасности серверов MCP и устранения обнаруженных уязвимостей перед развертыванием. Описанный инструмент аудита серверов MCP, MCPSafetyScanner, доступен бесплатно по адресу: https://github.com/johnhalloran321/mcpSafetyScanner.
Крупномасштабные предобученные диффузионные модели продемонстрировали выдающиеся результаты в области условной генерации изображений. Однако восстановление древних фресок, как важная задача в этой области, представляет значительные трудности для методов восстановления на основе диффузионных моделей из-за больших поврежденных областей и ограниченного количества обучающих данных. Условные задачи восстановления больше сосредоточены на том, соответствует ли восстановленная часть эстетическим стандартам реставрации фресок в плане общего стиля и деталей стыков, и в текущих исследованиях отсутствуют метрики для оценки эвристического дополнения изображений. Поэтому мы предлагаем DiffuMural — комбинированный механизм многоуровневой сходимости и совместной диффузии с использованием ControlNet и циклической потери согласованности для оптимизации соответствия между сгенерированными изображениями и условным управлением. DiffuMural демонстрирует выдающиеся возможности в восстановлении фресок, используя обучающие данные из 23 крупномасштабных фресок Дуньхуана, которые обладают единой визуальной эстетикой. Модель преуспевает в восстановлении сложных деталей, достижении целостного внешнего вида и решении уникальных задач, связанных с неполными фресками, лишенными фактической основы. Наша система оценки включает четыре ключевые метрики для количественного анализа неполных фресок: фактическая точность, текстурные детали, контекстная семантика и целостная визуальная согласованность. Кроме того, мы интегрируем оценку гуманистической ценности, чтобы гарантировать сохранение культурного и художественного значения восстановленных фресок. Многочисленные эксперименты подтверждают, что наш метод превосходит современные подходы (SOTA) как по качественным, так и по количественным метрикам.