Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) расширили свое влияние за пределы обработки естественного языка, существенно способствуя развитию междисциплинарных исследований. В последнее время были разработаны различные агенты на основе LLM, которые помогают продвижению научных открытий в различных аспектах и областях. Среди них особое внимание привлекают агенты, способные взаимодействовать с операционными системами так же, как это делают люди, что открывает путь к автоматизации решения научных задач и оптимизации рабочих процессов исследователей. Осознавая преобразующий потенциал таких агентов, мы представляем ScienceBoard, который включает два взаимодополняющих вклада: (i) реалистичную, многодоменную среду, включающую динамические и визуально насыщенные научные рабочие процессы с интегрированным профессиональным программным обеспечением, где агенты могут автономно взаимодействовать через различные интерфейсы для ускорения сложных исследовательских задач и экспериментов; и (ii) сложный бенчмарк из 169 высококачественных, тщательно проверенных реальных задач, охватывающих рабочие процессы научных открытий в таких областях, как биохимия, астрономия и геоинформатика. Обширные оценки агентов с передовыми архитектурами (например, GPT-4o, Claude 3.7, UI-TARS) показывают, что, несмотря на некоторые обнадеживающие результаты, они все еще не способны надежно помогать ученым в сложных рабочих процессах, достигая лишь 15% общего уровня успешности. Глубокий анализ также предоставляет ценные инсайты для преодоления текущих ограничений агентов и разработки более эффективных принципов проектирования, прокладывая путь к созданию более способных агентов для научных открытий. Наш код, среда и бенчмарк доступны по адресу https://qiushisun.github.io/ScienceBoard-Home/.
Создание академических постеров является важной, но сложной задачей в научной коммуникации, требующей сжатия длинных, переплетенных документов в одну визуально связную страницу. Для решения этой проблемы мы представляем первый эталонный набор данных и набор метрик для генерации постеров, который связывает недавние статьи конференций с постерами, разработанными авторами, и оценивает результаты по следующим критериям: (i) Визуальное качество — семантическое соответствие постерам, созданным людьми; (ii) Текстовая связность — языковая беглость; (iii) Холистическая оценка — шесть детализированных эстетических и информационных критериев, оцениваемых с помощью VLM (визуально-языковой модели) в роли судьи; и, что особенно важно, (iv) PaperQuiz — способность постера передавать основное содержание статьи, измеряемая с помощью VLM, отвечающих на сгенерированные вопросы. На основе этого эталона мы предлагаем PosterAgent, многоагентный процесс с визуальной обратной связью, работающий по принципу "сверху вниз": (a) Парсер извлекает из статьи структурированную библиотеку данных; (b) Планировщик выравнивает текстово-визуальные пары в бинарную древовидную структуру, сохраняя порядок чтения и пространственный баланс; и (c) Цикл "Художник-Комментатор" улучшает каждую панель, выполняя код рендеринга и используя обратную связь от VLM для устранения переполнения и обеспечения соответствия. В нашем всестороннем анализе мы обнаружили, что результаты GPT-4o, хотя и выглядят визуально привлекательно на первый взгляд, часто содержат шумный текст и низкие оценки по PaperQuiz, а также выяснили, что вовлеченность читателя является основным эстетическим ограничением, поскольку постерами, созданными людьми, в значительной степени используются визуальные семантики для передачи смысла. Наши полностью открытые варианты (например, на основе серии Qwen-2.5) превосходят существующие многоагентные системы, управляемые 4o, по почти всем метрикам, при этом используя на 87% меньше токенов. Они преобразуют 22-страничную статью в готовый, но редактируемый .pptx постер — и все это всего за $0.005. Эти результаты указывают четкие направления для следующего поколения полностью автоматизированных моделей генерации постеров. Код и наборы данных доступны по адресу https://github.com/Paper2Poster/Paper2Poster.
Логическое рассуждение является фундаментальным аспектом человеческого интеллекта и важной способностью для мультимодальных больших языковых моделей (MLLMs). Несмотря на значительный прогресс в области мультимодального рассуждения, существующие эталонные тесты не позволяют всесторонне оценить их способности к рассуждению из-за отсутствия явной классификации типов логического рассуждения и недостаточного понимания самого процесса рассуждения. Для решения этих проблем мы представляем MME-Reasoning — комплексный эталонный тест, разработанный для оценки способности к рассуждению MLLMs, который охватывает все три типа рассуждений (индуктивное, дедуктивное и абдуктивное) в своих вопросах. Мы тщательно отбираем данные, чтобы каждый вопрос эффективно оценивал способность к рассуждению, а не перцептивные навыки или широту знаний, и расширяем протоколы оценки для охвата разнообразных вопросов. Наша оценка выявляет существенные ограничения современных MLLMs при проведении комплексной оценки их логических способностей. Даже самые передовые MLLMs демонстрируют ограниченную производительность в комплексном логическом рассуждении, с заметным дисбалансом производительности между типами рассуждений. Кроме того, мы провели углубленный анализ подходов, таких как «режим мышления» и Rule-based RL, которые, как считается, улучшают способности к рассуждению. Эти результаты подчеркивают критические ограничения и дисбаланс производительности современных MLLMs в различных сценариях логического рассуждения, предоставляя всесторонние и систематические инсайты для понимания и оценки способностей к рассуждению.
Недавние достижения, такие как OpenAI-o1 и DeepSeek R1, продемонстрировали потенциал обучения с подкреплением (Reinforcement Learning, RL) для улучшения способностей к рассуждению в больших языковых моделях (Large Language Models, LLMs). Хотя усилия по воспроизведению в открытом исходном коде в основном сосредоточены на математических и программистских областях, методы и ресурсы для развития общих способностей к рассуждению остаются недостаточно изученными. Этот пробел частично связан с трудностью сбора разнообразных и проверяемых данных для рассуждений, подходящих для RL. Мы предполагаем, что логическое рассуждение критически важно для развития общих способностей к рассуждению, поскольку логика является фундаментальным строительным блоком рассуждений. В данной работе мы представляем SynLogic — фреймворк для синтеза данных и набор данных, который генерирует разнообразные логические задачи для рассуждений в масштабе, охватывая 35 различных логических задач. Подход SynLogic позволяет контролируемо синтезировать данные с регулируемой сложностью и количеством. Важно, что все примеры могут быть проверены с помощью простых правил, что делает их идеально подходящими для RL с проверяемыми наградами. В наших экспериментах мы подтверждаем эффективность обучения RL на наборе данных SynLogic на основе моделей с 7B и 32B параметрами. SynLogic демонстрирует наилучшие результаты в логическом рассуждении среди открытых наборов данных, превосходя DeepSeek-R1-Distill-Qwen-32B на 6 баллов по метрике BBEH. Более того, смешивание данных SynLogic с математическими и программистскими задачами повышает эффективность обучения в этих областях и значительно улучшает обобщение рассуждений. Примечательно, что наша модель, обученная на смешанных данных, превосходит DeepSeek-R1-Zero-Qwen-32B по нескольким бенчмаркам. Эти результаты позиционируют SynLogic как ценный ресурс для продвижения более широких способностей к рассуждению в LLMs. Мы открываем исходный код как для конвейера синтеза данных, так и для набора данных SynLogic по адресу https://github.com/MiniMax-AI/SynLogic.
Диффузионные модели значительно продвинули стилизацию изображений, однако две ключевые проблемы остаются нерешенными: (1) сохранение согласованной стилизации в сложных сценах, особенно в отношении идентичности, композиции и мелких деталей, и (2) предотвращение деградации стиля в конвейерах "изображение-в-изображение" с использованием стилевых LoRA. Исключительная согласованность стилизации GPT-4o подчеркивает разрыв в производительности между открытыми методами и проприетарными моделями. Чтобы сократить этот разрыв, мы предлагаем OmniConsistency — универсальный плагин для согласованности, использующий крупномасштабные Диффузионные Трансформеры (DiT). OmniConsistency вносит следующие вклады: (1) фреймворк для обучения согласованности в контексте, тренируемый на выровненных парах изображений для устойчивой генерализации; (2) двухэтапную прогрессивную стратегию обучения, разделяющую изучение стиля и сохранение согласованности для минимизации деградации стиля; и (3) полностью plug-and-play дизайн, совместимый с произвольными стилевыми LoRA в рамках Flux-фреймворка. Многочисленные эксперименты показывают, что OmniConsistency значительно улучшает визуальную согласованность и эстетическое качество, достигая производительности, сопоставимой с коммерческой передовой моделью GPT-4o.
Недавнее исследование показало, что крупные языковые модели (LLM) способны восстанавливать удивительно длинные тексты — до тысяч токенов — с помощью авторегрессивной генерации всего из одного специально обученного входного эмбеддинга. В данной работе мы исследуем, возможно ли такое восстановление без использования авторегрессии. Мы демонстрируем, что замороженные LLM могут генерировать сотни точных токенов всего за один прямой проход, когда им предоставляются только два обученных эмбеддинга. Это раскрывает удивительную и малоизученную способность LLM — генерацию множества токенов без итеративного декодирования. Мы исследуем поведение этих эмбеддингов и даем представление о типе информации, которую они кодируют. Также мы эмпирически показываем, что, хотя эти представления не являются уникальными для заданного текста, они образуют связанные и локальные области в пространстве эмбеддингов — свойство, которое указывает на потенциал обучения специализированного кодировщика в это пространство.
Крупные языковые модели (LLM), выполняющие задачи рассуждения, в значительной степени полагаются на масштабирование вычислительных ресурсов во время тестирования для выполнения сложных задач рассуждения путем генерации длинных цепочек "размышлений". Хотя этот подход демонстрирует впечатляющие результаты, он сопряжен с высокими вычислительными затратами и временем вывода. В данной работе мы ставим под сомнение предположение, что длинные цепочки размышлений приводят к лучшим способностям рассуждения. Сначала мы показываем, что более короткие цепочки рассуждений в рамках отдельных вопросов значительно чаще приводят к правильным ответам — точность может быть выше на 34,5% по сравнению с самой длинной цепочкой, сгенерированной для того же вопроса. На основе этих результатов мы предлагаем short-m@k — новый метод вывода для LLM, выполняющих рассуждения. Наш метод выполняет k независимых генераций параллельно и останавливает вычисления, как только завершаются первые m процессов размышлений. Окончательный ответ выбирается с помощью мажоритарного голосования среди этих m цепочек. Базовый метод short-1@k демонстрирует схожую или даже превосходящую производительность по сравнению со стандартным мажоритарным голосованием в условиях ограниченных вычислительных ресурсов — используя до 40% меньше токенов размышлений. Метод short-3@k, хотя и менее эффективен, чем short-1@k, стабильно превосходит мажоритарное голосование при всех уровнях вычислительных ресурсов, оставаясь при этом значительно быстрее (сокращение времени выполнения до 33%). Вдохновленные нашими результатами, мы дообучаем LLM, используя короткие, длинные и случайно выбранные цепочки рассуждений. Затем мы наблюдаем, что обучение на более коротких цепочках приводит к лучшей производительности. Наши результаты указывают на необходимость пересмотра текущих методов использования вычислительных ресурсов во время тестирования в LLM, выполняющих рассуждения, подчеркивая, что более длительные "размышления" не обязательно приводят к улучшению производительности и могут, вопреки интуиции, ухудшать результаты.
Генерация видео на основе объекта (Subject-to-Video, S2V) направлена на создание видеороликов, которые точно отражают референсный контент, обеспечивая повышенную гибкость в производстве видео. Для создания инфраструктуры S2V-генерации мы предлагаем OpenS2V-Nexus, состоящий из (i) OpenS2V-Eval, детального бенчмарка, и (ii) OpenS2V-5M, миллионного набора данных. В отличие от существующих S2V-бенчмарков, унаследованных от VBench и ориентированных на глобальную и грубую оценку сгенерированных видео, OpenS2V-Eval фокусируется на способности модели создавать видео с согласованным объектом, естественным внешним видом и сохранением идентичности. Для этих целей OpenS2V-Eval включает 180 промптов из семи основных категорий S2V, которые охватывают как реальные, так и синтетические тестовые данные. Кроме того, для точного согласования человеческих предпочтений с S2V-бенчмарками мы предлагаем три автоматические метрики: NexusScore, NaturalScore и GmeScore, которые отдельно количественно оценивают согласованность объекта, естественность и релевантность текста в сгенерированных видео. На основе этого мы проводим всестороннюю оценку 16 репрезентативных S2V-моделей, выделяя их сильные и слабые стороны в различных типах контента. Более того, мы создаем первый открытый крупномасштабный набор данных для S2V-генерации OpenS2V-5M, который состоит из пяти миллионов высококачественных триплетов "объект-текст-видео" в разрешении 720P. В частности, мы обеспечиваем разнообразие информации об объектах в нашем наборе данных путем (1) сегментации объектов и построения парной информации через кросс-видео ассоциации и (2) использования GPT-Image-1 на исходных кадрах для синтеза многоплановых представлений. С помощью OpenS2V-Nexus мы предоставляем надежную инфраструктуру для ускорения будущих исследований в области S2V-генерации.
Методы масштабирования во время тестирования (Test-Time Scaling, TTS) для улучшения рассуждений больших языковых моделей (Large Language Models, LLM) часто связаны с существенными вычислительными затратами, в основном из-за активного использования внешних моделей оценки процесса (Process Reward Models, PRM) или методов выборки, таких как Best-of-N (BoN). В данной статье представлен Guided by Gut (GG) — эффективный самоуправляемый TTS-фреймворк, который достигает уровня производительности PRM без затратных внешних моделей верификации. Наш метод использует легковесный поиск по дереву, управляемый исключительно внутренними сигналами LLM: уверенностью на уровне токенов и новизной шагов. Ключевым нововведением является повышение надежности внутренних оценок уверенности с помощью целевой фазы тонкой настройки с использованием обучения с подкреплением. Эмпирические оценки на сложных бенчмарках математического рассуждения показывают, что GG позволяет меньшим моделям (например, с 1,5 млрд параметров) достигать точности, сопоставимой или превосходящей значительно более крупные модели (например, с 32–70 млрд параметров), при этом сокращая использование памяти GPU до 10 раз. По сравнению с методами на основе PRM, GG достигает сопоставимой точности при 8-кратном увеличении скорости вывода и 4–5-кратном снижении использования памяти. Кроме того, GG сокращает использование памяти KV-кэша примерно на 50% по сравнению со стратегией BoN, что способствует более эффективному и практичному внедрению TTS-техник.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили осуществлять унифицированную обработку языковых, визуальных и структурированных данных, открывая путь к решению сложных задач, таких как логический вывод, пространственное рассуждение и научный анализ. Несмотря на их потенциал, способности к рассуждению MLLMs, особенно тех, которые дополнены промежуточными следами мышления (MLLMs-T), остаются плохо изученными и не имеют стандартизированных критериев оценки. Существующие работы в основном сосредоточены на восприятии или правильности конечного ответа, что дает ограниченное представление о том, как модели рассуждают или ошибаются в различных модальностях. Для устранения этого пробела мы представляем MMMR — новый эталонный тест, разработанный для строгой оценки мультимодального рассуждения с явным мышлением. MMMR включает: 1) набор данных высокой сложности, состоящий из 1083 вопросов, охватывающих шесть различных типов рассуждений с символической глубиной и требованиями многошагового анализа, и 2) модульный конвейер оценки следов рассуждения (RTEP) для оценки качества рассуждений за пределами точности с использованием таких метрик, как релевантность, согласованность и структурированные аннотации ошибок. Эмпирические результаты показывают, что MLLMs-T в целом превосходят модели без следов мышления, но даже ведущие модели, такие как Claude-3.7-Sonnet и Gemini-2.5 Pro, страдают от патологий рассуждения, таких как несогласованность и избыточное мышление. Этот эталонный тест выявляет устойчивые разрывы между точностью и качеством рассуждений и предоставляет практический конвейер оценки для будущей разработки моделей. В целом, MMMR предлагает масштабируемую основу для оценки, сравнения и улучшения следующего поколения мультимодальных систем рассуждения.
Последние достижения в области больших языковых моделей (LLM) показали перспективность в генерации кода на уровне функций, однако задачи программной инженерии на уровне репозиториев остаются сложными. Современные решения в основном полагаются на проприетарные LLM-агенты, что вносит неопределенность и ограничивает доступность, вызывая опасения относительно конфиденциальности данных и настройки моделей. В данной статье исследуется, могут ли открытые LLM эффективно решать задачи на уровне репозиториев без использования агентных подходов. Мы демонстрируем, что это возможно, позволяя LLM понимать функции и файлы в кодовых базах через их семантическую информацию и структурные зависимости. Для этого мы представляем Code Graph Models (CGM), которые интегрируют структуры графов кода репозиториев в механизм внимания LLM и отображают атрибуты узлов в пространство входных данных LLM с помощью специализированного адаптера. В сочетании с безагентным графовым RAG-фреймворком наш подход достигает показателя разрешения 43,00% на бенчмарке SWE-bench Lite с использованием открытой модели Qwen2.5-72B. Этот результат занимает первое место среди моделей с открытыми весами, второе место среди методов с открытыми системами и восьмое место в общем рейтинге, превосходя предыдущий лучший метод на основе открытых моделей на 12,33%.
Применение обучения с подкреплением (Reinforcement Learning, RL) к видеомоделям с большим языковым контекстом (Video-LLMs) демонстрирует значительный потенциал для сложного анализа видеоданных. Однако популярные методы тонкой настройки с использованием подкрепления (Reinforcement Fine-Tuning, RFT), такие как оптимизация групповой относительной политики на основе результатов (Group Relative Policy Optimization, GRPO), ограничены проблемами подготовки данных (например, шум или высокая стоимость) и показывают нестабильные улучшения в качестве длинных цепочек рассуждений (chain-of-thoughts, CoTs) и производительности на последующих этапах. Для решения этих ограничений мы предлагаем VerIPO — метод итеративной оптимизации политики с использованием верификатора (Verifier-guided Iterative Policy Optimization), предназначенный для постепенного улучшения способности видеомоделей генерировать глубокие и долгосрочные цепочки рассуждений. Ключевым компонентом является верификатор, учитывающий результаты развертывания (Rollout-Aware Verifier), который располагается между фазами обучения GRPO и оптимизации прямых предпочтений (Direct Preference Optimization, DPO), формируя цикл обучения GRPO-Verifier-DPO. Этот верификатор использует небольшие языковые модели в качестве судьи для оценки логики рассуждений в развертываниях, что позволяет создавать высококачественные контрастные данные, включая рефлексивные и контекстуально согласованные CoTs. Эти тщательно отобранные примеры предпочтений обеспечивают эффективный этап DPO (в 7 раз быстрее, чем GRPO), приводя к заметным улучшениям качества цепочек рассуждений, особенно в плане длины и контекстуальной согласованности. Этот цикл обучения сочетает преимущества широкого поиска GRPO и целенаправленной оптимизации DPO. Экспериментальные результаты показывают: 1) Значительно более быструю и эффективную оптимизацию по сравнению со стандартными вариантами GRPO, что приводит к превосходной производительности; 2) Наши обученные модели превосходят прямое использование крупномасштабных видеомоделей, настроенных на инструкции, генерируя длинные и контекстуально согласованные CoTs в разнообразных задачах анализа видеоданных; и 3) Наша модель с одной итерацией превосходит мощные мультимодальные модели (например, Kimi-VL) и модели для длинных рассуждений (например, Video-R1), подчеркивая её эффективность и стабильность.
Трансформеры с диффузией (DiTs) играют ключевую роль в генерации видео, но страдают от значительных задержек из-за квадратичной сложности механизма внимания. Вычисление только критических токенов с использованием разреженного внимания снижает вычислительные затраты и предлагает перспективный подход к ускорению. Однако мы выявили, что существующие методы не достигают оптимального качества генерации при том же вычислительном бюджете по двум причинам: (1) Неточное определение критических токенов: текущие методы группируют токены на основе их позиции, а не семантики, что приводит к неточным агрегированным представлениям. (2) Избыточные вычислительные потери: критические токены распределены среди некритических, что приводит к бесполезным вычислениям на GPU, которые оптимизированы для обработки последовательных токенов. В данной работе мы предлагаем SVG2, фреймворк, не требующий обучения, который максимизирует точность идентификации и минимизирует вычислительные потери, достигая Парето-оптимального компромисса между качеством генерации и эффективностью. Основой SVG2 является семантически осознанная перестановка, которая группирует и переупорядочивает токены на основе семантического сходства с использованием k-средних. Этот подход обеспечивает как точное представление кластеров, повышая точность идентификации, так и уплотненное расположение критических токенов, позволяя эффективно выполнять вычисления без заполнения. Кроме того, SVG2 интегрирует динамический контроль бюджета top-p и специализированные реализации ядер, достигая ускорения до 2.30x и 1.89x при сохранении PSNR до 30 и 26 на наборах данных HunyuanVideo и Wan 2.1 соответственно.
Мультимодальные большие языковые модели (MLLMs) достигли значительной точности в задачах оптического распознавания символов (OCR) на статических изображениях. Однако их эффективность в OCR для видео существенно снижается из-за таких факторов, как размытие в движении, временные вариации и визуальные эффекты, присущие видеоконтенту. Для предоставления более четких рекомендаций по обучению практических MLLMs мы представляем бенчмарк MME-VideoOCR, который охватывает широкий спектр сценариев применения OCR в видео. MME-VideoOCR включает 10 категорий задач, состоящих из 25 отдельных заданий, и охватывает 44 разнообразных сценария. Эти задачи выходят за рамки простого распознавания текста, включая более глубокое понимание и анализ текстового содержания в видео. Бенчмарк состоит из 1 464 видео с различным разрешением, соотношением сторон и длительностью, а также 2 000 тщательно отобранных и вручную аннотированных пар вопросов и ответов. Мы оценили 18 современных MLLMs на MME-VideoOCR, и результаты показали, что даже лучшая модель (Gemini-2.5 Pro) достигает точности всего 73,7%. Детальный анализ показывает, что, хотя существующие MLLMs демонстрируют высокую производительность на задачах, где релевантный текст содержится в одном или нескольких кадрах, их возможности ограничены в эффективном решении задач, требующих целостного понимания видео. Эти ограничения особенно заметны в сценариях, требующих пространственно-временного анализа, интеграции информации между кадрами или устойчивости к языковым предубеждениям. Наши результаты также подчеркивают важность высокого разрешения визуального ввода и достаточного временного охвата для надежного OCR в динамичных видео-сценариях.
В данной статье мы представляем UI-Genie, самообучающуюся структуру, которая решает две ключевые проблемы, связанные с агентами для графических интерфейсов (GUI): сложность проверки результатов траекторий и отсутствие масштабируемых высококачественных обучающих данных. Эти проблемы решаются с помощью модели вознаграждения и самообучающегося конвейера соответственно. Модель вознаграждения, UI-Genie-RM, обладает архитектурой, объединяющей изображения и текст, что позволяет эффективно обрабатывать исторический контекст и объединять вознаграждения на уровне действий и задач. Для поддержки обучения UI-Genie-RM мы разработали специальные стратегии генерации данных, включая проверку на основе правил, контролируемое искажение траекторий и поиск сложных негативных примеров. Для решения второй проблемы самообучающийся конвейер постепенно расширяет набор решаемых сложных задач GUI, улучшая как агента, так и модель вознаграждения через исследование, управляемое вознаграждением, и проверку результатов в динамических средах. Для обучения модели мы создали наборы данных UI-Genie-RM-517k и UI-Genie-Agent-16k, устанавливая первый набор данных, специфичный для вознаграждений в агентах GUI, и демонстрируя генерацию высококачественных синтетических траекторий без ручной аннотации. Результаты экспериментов показывают, что UI-Genie достигает наилучших результатов на нескольких тестах для агентов GUI благодаря трём поколениям самообучения модели и данных. Мы открываем исходный код нашей полной реализации структуры и сгенерированных наборов данных для содействия дальнейшим исследованиям на https://github.com/Euphoria16/UI-Genie.
Low-Rank Adaptation (LoRA) — это популярный метод параметрически эффективной тонкой настройки (PEFT) генеративных моделей, который ценится за свою простоту и эффективность. Несмотря на недавние улучшения, LoRA по-прежнему страдает от фундаментального ограничения: переобучения при увеличении ширины узкого места. Наилучшие результаты достигаются при рангах 32-64, однако точность стагнирует или снижается при более высоких рангах, всё ещё не достигая производительности полной тонкой настройки (FFT). Мы определяем коренную причину как структурное узкое место LoRA, которое вносит запутывание градиентов в несвязанные входные каналы и искажает распространение градиентов. Для решения этой проблемы мы представляем новую структуру — Granular Low-Rank Adaptation (GraLoRA), которая разделяет матрицы весов на подблоки, каждый со своим низкоранговым адаптером. С незначительными вычислительными или затратами на хранение GraLoRA преодолевает ограничения LoRA, эффективно увеличивает репрезентационную способность и более точно приближает поведение FFT. Эксперименты на бенчмарках генерации кода и рассуждений на основе здравого смысла показывают, что GraLoRA стабильно превосходит LoRA и другие базовые методы, достигая абсолютного прироста до +8,5% в Pass@1 на HumanEval+. Эти улучшения сохраняются для различных размеров моделей и настроек рангов, что делает GraLoRA масштабируемым и надежным решением для PEFT. Код, данные и скрипты доступны по адресу https://github.com/SqueezeBits/GraLoRA.git.
Корпоративные клиенты всё чаще внедряют крупные языковые модели (LLM) для выполнения важных коммуникационных задач, таких как составление электронных писем, подготовка коммерческих предложений и написание неформальных сообщений. Развёртывание таких моделей в различных регионах требует, чтобы они понимали разнообразные культурные и языковые контексты и генерировали безопасные и уважительные ответы. Для корпоративных приложений крайне важно минимизировать репутационные риски, поддерживать доверие и обеспечивать соответствие требованиям, эффективно выявляя и обрабатывая небезопасный или оскорбительный язык. Для решения этой задачи мы представляем SweEval — бенчмарк, моделирующий реальные сценарии с вариациями тональности (положительной или отрицательной) и контекста (формального или неформального). В запросах явно указывается модели включить определённые нецензурные выражения при выполнении задачи. Этот бенчмарк оценивает, соблюдают ли LLM такие неподходящие инструкции или сопротивляются им, а также проверяет их соответствие этическим принципам, культурным нюансам и способностям понимания языка. Для продвижения исследований в области создания этически выверенных ИИ-систем для корпоративного использования и не только мы публикуем набор данных и код: https://github.com/amitbcp/multilingual_profanity.
Недавние достижения в области рассуждений с использованием цепочек мыслей (CoT) и посттренировочного обучения с подкреплением (RL) были отмечены как улучшающие способности мультимодальных языковых моделей (MLLMs) к анализу видео. Этот прогресс естественным образом поднимает вопрос: могут ли эти модели выполнять сложный анализ видео на уровне, сопоставимом с экспертами-людьми? Однако существующие видеобенчмарки в основном оценивают способности к визуальному восприятию и привязке к контексту, используя вопросы, которые можно ответить на основе явных подсказок или изолированных визуальных сигналов. Такие бенчмарки не полностью отражают сложность реального анализа, где люди должны активно искать, интегрировать и анализировать множество подсказок, прежде чем прийти к выводу. Чтобы решить эту проблему, мы представляем Video-Holmes — бенчмарк, вдохновленный процессом рассуждений Шерлока Холмса, разработанный для оценки способностей MLLMs к сложному анализу видео. Video-Holmes состоит из 1837 вопросов, основанных на 270 вручную аннотированных короткометражных фильмах в жанре саспенса, и охватывает семь тщательно разработанных задач. Каждая задача создается путем сначала выявления ключевых событий и причинно-следственных связей в фильмах, а затем формулирования вопросов, требующих от моделей активного поиска и соединения множества релевантных визуальных подсказок, разбросанных по различным сегментам видео. Наше всестороннее тестирование современных MLLMs показывает, что, хотя эти модели в целом преуспевают в визуальном восприятии, они сталкиваются с существенными трудностями при интеграции информации и часто упускают критически важные подсказки. Например, лучшая модель, Gemini-2.5-Pro, достигает точности всего 45%, при этом большинство моделей показывают результат ниже 40%. Мы надеемся, что Video-Holmes послужит "тестом Холмса" для мультимодального анализа, мотивируя модели рассуждать более по-человечески и подчеркивая текущие вызовы в этой области. Бенчмарк доступен по адресу: https://github.com/TencentARC/Video-Holmes.
Развитие способностей крупных языковых моделей (LLM) к анализу кода фундаментально ограничено нехваткой наборов данных высокой сложности, особенно тех, которые содержат проверяемые тестовые примеры, необходимые для строгой валидации решений в масштабе. Мы представляем rStar-Coder, который значительно улучшает способности LLM к анализу кода за счет создания крупномасштабного, проверенного набора данных, включающего 418 тысяч задач уровня соревнований, 580 тысяч решений с длинными рассуждениями, а также богатый набор тестовых примеров различной сложности. Это достигнуто благодаря трем ключевым вкладам: (1) мы отбираем задачи из соревновательного программирования и эталонные решения для синтеза новых, решаемых задач; (2) мы внедряем надежный конвейер синтеза тестовых примеров, который разделяет генерацию на трехэтапный метод создания входных данных и механизм взаимной проверки для эффективной маркировки выходных данных; (3) мы дополняем задачи высококачественными решениями с длинными рассуждениями, проверенными тестовыми примерами. Масштабные эксперименты на моделях Qwen (1.5B-14B) на различных бенчмарках анализа кода демонстрируют превосходство набора данных rStar-Coder, достигая лидирующих результатов, сопоставимых с передовыми LLM для рассуждений, при значительно меньших размерах моделей. На LiveCodeBench rStar-Coder улучшает Qwen2.5-7B с 17,4% до впечатляющих 57,3%, а Qwen2.5-14B — с 23,3% до 62,5%, превосходя o3-mini (low) на 3,1%. На более сложном USA Computing Olympiad наша модель 7B достигает средней точности pass@1 в 16,15%, превосходя передовую модель QWQ-32B. Код и набор данных будут опубликованы по адресу https://github.com/microsoft/rStar.
Недавний сдвиг парадигмы в сторону обучения крупных языковых моделей (LLM) с использованием обучения с подкреплением (RL) в стиле DeepSeek-R1-Zero на основе проверяемых наград привел к впечатляющим достижениям в области программирования и математического мышления. Однако этот метод ограничен задачами, где возможна проверка ответов на основе правил, и не распространяется естественным образом на реальные области, такие как химия, здравоохранение, инженерия, право, биология, бизнес и экономика. Текущие практические обходные пути используют дополнительную LLM в качестве проверяющей модели; однако это влечет за собой проблемы, такие как зависимость от мощной проверяющей LLM, уязвимость к взлому наград и практические трудности с поддержанием проверяющей модели в памяти во время обучения. Чтобы решить эту проблему и расширить обучение в стиле DeepSeek-R1-Zero на общие области рассуждений, мы предлагаем метод без проверки (VeriFree), который обходит проверку ответов и вместо этого использует RL для непосредственного максимизации вероятности генерации эталонного ответа. Мы сравниваем VeriFree с методами, основанными на проверке, и демонстрируем, что, помимо значительных практических преимуществ и снижения вычислительных требований, VeriFree соответствует и даже превосходит методы с проверкой в обширных оценках на MMLU-Pro, GPQA, SuperGPQA и математических бенчмарках. Более того, мы предоставляем инсайты в этот метод с нескольких точек зрения: как элегантную интеграцию обучения как политики, так и неявной проверяющей модели в единой модели, и как подход вариационной оптимизации. Код доступен по адресу https://github.com/sail-sg/VeriFree.
Социальные взаимодействия людей зависят от способности выявлять невысказанные намерения, эмоции и убеждения других — когнитивного навыка, основанного на психологической концепции Теории Разума (Theory of Mind, ToM). Хотя крупные языковые модели (LLMs) преуспевают в задачах семантического понимания, они сталкиваются с трудностями при работе с неоднозначностью и контекстуальными нюансами, присущими человеческому общению. Чтобы преодолеть этот разрыв, мы представляем MetaMind — мультиагентный фреймворк, вдохновленный психологическими теориями метакогниции, предназначенный для эмуляции человеческого социального мышления. MetaMind разбивает социальное понимание на три совместных этапа: (1) агент Теории Разума генерирует гипотезы о ментальных состояниях пользователя (например, намерениях, эмоциях), (2) доменный агент уточняет эти гипотезы с учетом культурных норм и этических ограничений, и (3) агент ответа генерирует контекстуально уместные ответы, одновременно проверяя их соответствие выявленным намерениям. Наш фреймворк демонстрирует наилучшие результаты на трех сложных тестовых наборах, с улучшением на 35,7% в реальных социальных сценариях и на 6,2% в задачах, связанных с Теорией Разума. Примечательно, что он впервые позволяет LLMs достичь уровня человеческой производительности в ключевых задачах ToM. Абляционные исследования подтверждают необходимость всех компонентов, демонстрируя способность фреймворка балансировать между контекстуальной правдоподобностью, социальной уместностью и адаптацией к пользователю. Эта работа продвигает системы ИИ в направлении человеческого социального интеллекта, с приложениями в эмпатическом диалоге и культурно чувствительных взаимодействиях. Код доступен по адресу https://github.com/XMZhangAI/MetaMind.
Повышение производительности на сложных задачах и обеспечение интерпретируемости принятия решений в больших языковых моделях (LLM), особенно для клинических приложений, требует эффективного рассуждения. Однако это остается сложной задачей без контролируемого тонкого настройки (SFT) на дорогостоящих данных цепочки рассуждений (CoT), извлеченных из закрытых моделей (например, GPT-4o). В данной работе мы представляем AlphaMed — первую медицинскую LLM, которая демонстрирует, что способность к рассуждению может возникать исключительно благодаря обучению с подкреплением (RL), с использованием минималистичных правил на основе наград на публичных наборах данных с множественным выбором (QA), без необходимости в SFT или данных CoT. AlphaMed достигает наилучших результатов на шести медицинских QA-бенчмарках, превосходя модели, обученные с использованием традиционных подходов SFT+RL. На сложных бенчмарках (например, MedXpert) AlphaMed даже превосходит более крупные или закрытые модели, такие как DeepSeek-V3-671B и Claude-3.5-Sonnet. Чтобы понять факторы, стоящие за этим успехом, мы проводим всесторонний анализ, ориентированный на данные, руководствуясь тремя вопросами: (i) Могут ли минималистичные правила на основе RL стимулировать рассуждения без надзора CoT? (ii) Как количество и разнообразие данных влияют на рассуждения? (iii) Как сложность вопросов формирует возникновение и обобщение рассуждений? Наши результаты показывают, что информативность данных является ключевым фактором производительности рассуждений, а минималистичный RL на информативных данных с множественным выбором эффективно стимулирует рассуждения без надзора CoT. Мы также наблюдаем расходящиеся тенденции на разных бенчмарках, что подчеркивает ограничения текущей оценки и необходимость в более сложных, ориентированных на рассуждения медицинских QA-бенчмарках.
Модели обработки видео на основе больших языковых моделей (video LLMs) демонстрируют высокие результаты в понимании видео, но сталкиваются с существенной вычислительной неэффективностью из-за избыточных видео-токенов. Существующие методы обрезки токенов предлагают решения. Однако подходы, работающие внутри LLM (внутренняя обрезка), такие как FastV, несут внутренние вычислительные накладные расходы на начальных слоях. В то же время методы, выполняющие обрезку токенов до LLM (внешняя обрезка), в основном устраняют пространственную избыточность в пределах отдельных кадров или ограниченных временных окон, игнорируя важные глобальные временные динамики и корреляции в более длинных видео-последовательностях. Это приводит к неоптимальному пространственно-временному сокращению и не полностью использует сжимаемость видео. Ключевым моментом является то, что синергетический потенциал и взаимное влияние комбинации этих стратегий остаются неисследованными. Для дальнейшего сокращения избыточности мы представляем HoliTom — новый фреймворк для объединения токенов, не требующий обучения. HoliTom использует внешнюю обрезку через глобальную временную сегментацию с учетом избыточности, за которой следует пространственно-временное объединение, что позволяет сократить количество визуальных токенов более чем на 90%, значительно снижая вычислительную нагрузку на LLM. Дополняя это, мы предлагаем устойчивый метод внутреннего объединения токенов на основе их сходства, разработанный для превосходной производительности и совместимости с внешней обрезкой. Оценки демонстрируют перспективный баланс эффективности и производительности нашего метода на модели LLaVA-OneVision-7B, сокращая вычислительные затраты до 6,9% от FLOPs при сохранении 99,1% исходной производительности. Кроме того, мы достигаем 2,28-кратного сокращения времени до первого токена (TTFT) и 1,32-кратного ускорения пропускной способности декодирования, подчеркивая практические преимущества нашего интегрированного подхода к обрезке для эффективного вывода видео LLM.
Анимация изображений с интерактивным управлением движением приобрела популярность в задаче генерации видео из изображений (image-to-video, I2V). Современные подходы обычно полагаются на большие гауссовы ядра для расширения траекторий движения в качестве условия, не определяя явно область перемещения, что приводит к грубому управлению движением и не позволяет разделить движение объекта и камеры. Чтобы устранить эти проблемы, мы представляем MotionPro — точный контроллер движения, который инновационно использует траектории по областям и маску движения для регулирования синтеза детализированного движения и идентификации целевой категории движения (т.е., движение объекта или камеры) соответственно. Технически, MotionPro сначала оценивает карты потоков для каждого обучающего видео с помощью модели отслеживания, а затем выбирает траектории по областям для моделирования сценария вывода. Вместо расширения потоков через большие гауссовы ядра, наш подход с траекториями по областям обеспечивает более точное управление, напрямую используя траектории в локальных областях, тем самым эффективно характеризуя детализированные движения. Одновременно из предсказанных карт потоков выводится маска движения для захвата целостной динамики движения в областях. Для достижения естественного управления движением, MotionPro дополнительно усиливает шумоподавление видео, интегрируя как траектории по областям, так и маску движения через модуляцию признаков. Более того, мы тщательно создали бенчмарк, а именно MC-Bench, содержащий 1.1 тыс. пар изображение-траектория с аннотациями пользователей, для оценки как детализированного, так и объектно-ориентированного управления движением в I2V. Многочисленные эксперименты, проведенные на наборах данных WebVid-10M и MC-Bench, демонстрируют эффективность MotionPro. Дополнительные результаты доступны на странице проекта: https://zhw-zhang.github.io/MotionPro-page/.
Многоязычное выравнивание представляет собой эффективную и репрезентативную парадигму для улучшения многоязычных возможностей крупных языковых моделей (LLM), которая переносит возможности с языков с большими ресурсами на языки с ограниченными ресурсами. В то же время исследования, посвященные языково-специфичным нейронам, показывают, что в LLM существуют нейроны, которые избирательно активируются при обработке различных языков. Это открывает новую перспективу для более детального анализа и понимания механизмов LLM в многоязычных сценариях. В данной работе мы предлагаем новый, более детализированный алгоритм идентификации нейронов, который обнаруживает языковые нейроны (включая языково-специфичные и языково-связанные нейроны) и языково-независимые нейроны. Кроме того, основываясь на распределительных характеристиках различных типов нейронов, мы разделяем внутренний процесс LLM для многоязычного вывода на четыре части: (1) многоязычное понимание, (2) рассуждение в общем семантическом пространстве, (3) преобразование многоязычного выходного пространства и (4) вывод в словарное пространство. Дополнительно мы систематически анализируем модели до и после выравнивания, уделяя особое внимание различным типам нейронов. Мы также исследуем феномен «Спонтанного многоязычного выравнивания». В целом, наша работа проводит всестороннее исследование, основанное на различных типах нейронов, предоставляя эмпирические результаты и ценные инсайты для лучшего понимания многоязычного выравнивания и многоязычных возможностей LLM.
Управляемость, временная согласованность и синтез деталей остаются наиболее важными задачами в генерации видео. В данной работе мы сосредоточились на широко используемой, но недостаточно изученной кинематографической технике, известной как "Frame In and Frame Out". В частности, начиная с генерации видео из изображений, пользователи могут управлять объектами на изображении, чтобы они естественно покидали сцену или предоставляли новые идентификационные ссылки для входа в сцену, руководствуясь заданной пользователем траекторией движения. Для поддержки этой задачи мы представляем новый набор данных, созданный полуавтоматически, комплексный протокол оценки, ориентированный на данную задачу, и эффективную архитектуру Diffusion Transformer с сохранением идентичности и управлением движением. Наши результаты оценки показывают, что предложенный подход значительно превосходит существующие базовые методы.
Последние достижения в области генеративных моделей позволили добиться высококачественного преобразования текста в изображение. Однако открытые модели редактирования изображений по-прежнему отстают от своих проприетарных аналогов, главным образом из-за ограниченного объема высококачественных данных и недостаточного количества бенчмарков. Чтобы преодолеть эти ограничения, мы представляем ImgEdit — масштабный высококачественный набор данных для редактирования изображений, содержащий 1,2 миллиона тщательно отобранных пар редактирования, включающих как новые и сложные одношаговые правки, так и сложные многошаговые задачи. Для обеспечения качества данных мы используем многоэтапный процесс, который интегрирует передовую модель обработки изображений и текста, модель детекции, модель сегментации, а также специализированные процедуры восстановления изображений и строгую постобработку. ImgEdit превосходит существующие наборы данных как по новизне задач, так и по качеству данных. Используя ImgEdit, мы обучаем ImgEdit-E1 — модель редактирования, которая применяет Vision Language Model для обработки исходного изображения и текстового запроса. Эта модель превосходит существующие открытые модели в выполнении множества задач, что подчеркивает ценность ImgEdit и дизайна модели. Для всесторонней оценки мы представляем ImgEdit-Bench — бенчмарк, предназначенный для оценки производительности редактирования изображений с точки зрения соответствия инструкциям, качества редактирования и сохранения деталей. Он включает базовый набор тестов, сложный одношаговый набор и специализированный многошаговый набор. Мы оцениваем как открытые, так и проприетарные модели, а также ImgEdit-E1, предоставляя глубокий анализ и практические рекомендации по текущему поведению моделей редактирования изображений. Исходные данные доступны публично по адресу https://github.com/PKU-YuanGroup/ImgEdit.
Во многих реальных приложениях развернутые модели сталкиваются с входными данными, которые отличаются от данных, наблюдаемых во время обучения. Обнаружение данных, выходящих за пределы распределения (out-of-distribution), определяет, происходит ли входной сигнал из неизвестного распределения, в то время как распознавание в открытом мире (open-world recognition) помечает такие данные, чтобы обеспечить устойчивость системы по мере появления новых, ранее неизвестных категорий, которые необходимо учитывать без переобучения. Фундаментальные и мультимодальные модели предварительно обучаются на больших и разнообразных наборах данных с ожиданием широкого обобщения в различных областях, включая медицинскую визуализацию. Однако тестирование этих моделей на наборах данных с небольшим количеством типичных выбросов неявно сводит оценку к задаче с закрытым набором, скрывая ошибки на редких или действительно новых условиях, встречающихся в клинической практике. Мы представляем NOVA — сложный, ориентированный на реальную жизнь бенчмарк для оценки, состоящий из 900 симуляций МРТ-сканирований мозга, охватывающих 281 редкую патологию и различные протоколы получения данных. Каждый случай включает подробные клинические описания и двойные слепые экспертные аннотации с ограничивающими рамками. Вместе они позволяют проводить совместную оценку локализации аномалий, визуального описания и диагностического анализа. Поскольку NOVA никогда не используется для обучения, он служит экстремальным стресс-тестом для обобщения на данных, выходящих за пределы распределения: модели должны преодолеть разрыв как в визуальном представлении данных, так и в семантическом пространстве. Базовые результаты с ведущими мультимодальными моделями (GPT-4o, Gemini 2.0 Flash и Qwen2.5-VL-72B) показывают значительное снижение производительности по всем задачам, что подтверждает NOVA как строгий тестовый стенд для разработки моделей, способных обнаруживать, локализовать и анализировать действительно неизвестные аномалии.
В данной статье представлен DetailFlow, метод генерации изображений с использованием грубо-тонкой одномерной авторегрессии (AR), который моделирует изображения через новую стратегию предсказания следующих деталей. Обучая последовательность токенов, учитывающую разрешение, на основе постепенно ухудшающихся изображений, DetailFlow позволяет процессу генерации начинаться с глобальной структуры и постепенно уточнять детали. Эта грубо-тонкая одномерная последовательность токенов хорошо согласуется с механизмом авторегрессивного вывода, предоставляя более естественный и эффективный способ для AR-модели генерировать сложный визуальный контент. Наша компактная одномерная AR-модель достигает высококачественного синтеза изображений с значительно меньшим количеством токенов по сравнению с предыдущими подходами, такими как VAR/VQGAN. Мы также предлагаем механизм параллельного вывода с самокоррекцией, который ускоряет процесс генерации примерно в 8 раз, одновременно уменьшая накопление ошибок выборки, присущих обучению с учителем. На тестовом наборе данных ImageNet 256x256 наш метод достигает значения 2.96 gFID при использовании 128 токенов, превосходя VAR (3.3 FID) и FlexVAR (3.05 FID), которые требуют 680 токенов в своих AR-моделях. Более того, благодаря значительно уменьшенному количеству токенов и механизму параллельного вывода, наш метод работает почти в 2 раза быстрее по сравнению с VAR и FlexVAR. Обширные экспериментальные результаты демонстрируют превосходное качество генерации и эффективность DetailFlow по сравнению с современными методами.
Активное зрение, также известное как активное восприятие, относится к процессу активного выбора того, куда и как смотреть, чтобы собирать информацию, релевантную задаче. Это критически важный компонент эффективного восприятия и принятия решений у людей и продвинутых воплощенных агентов. В последнее время использование мультимодальных больших языковых моделей (MLLMs) в качестве центральных модулей планирования и принятия решений в роботизированных системах привлекает значительное внимание. Однако, несмотря на важность активного восприятия в воплощенном интеллекте, практически отсутствуют исследования того, как MLLMs могут быть оснащены или научиться способностям активного восприятия. В данной работе мы сначала предлагаем систематическое определение задач активного восприятия на основе MLLMs. Мы отмечаем, что недавно предложенная стратегия поиска с увеличением масштаба модели GPT-o3 может рассматриваться как частный случай активного восприятия; однако она все еще страдает от низкой эффективности поиска и неточного выбора областей. Для решения этих проблем мы предлагаем ACTIVE-O3, чисто обучаемую на основе подкрепления структуру, построенную поверх GRPO, предназначенную для оснащения MLLMs способностями активного восприятия. Мы также создаем комплексный набор тестов для оценки ACTIVE-O3 как на общих задачах открытого мира, таких как локализация мелких и плотно расположенных объектов, так и на специализированных сценариях, включая обнаружение мелких объектов в дистанционном зондировании и автономном вождении, а также точную интерактивную сегментацию. Кроме того, ACTIVE-O3 демонстрирует сильные способности к рассуждению в условиях нулевого сэмплинга на тестовом наборе V* Benchmark, не полагаясь на какие-либо явные данные для рассуждений. Мы надеемся, что наша работа предоставит простую кодовую базу и протокол оценки, которые облегчат будущие исследования активного восприятия в MLLMs.
Точный контроль над генерацией языковых моделей имеет решающее значение для обеспечения безопасности и надежности. Хотя инженерия подсказок и управление поведением моделей широко используются для вмешательства в их работу, огромное количество параметров в моделях часто приводит к сильно переплетенным внутренним представлениям. Эта взаимозависимость может ограничивать точность контроля и иногда приводить к непреднамеренным побочным эффектам. В последних исследованиях изучалось использование разреженных автокодировщиков (SAE) для разделения знаний в высокоразмерных пространствах с целью управления. Однако эти применения ограничивались упрощенными задачами из-за сложности локализации атомарных компонентов знаний. В данной статье мы предлагаем метод Steering Target Atoms (STA), который изолирует и манипулирует разделенными компонентами знаний для повышения безопасности. Комплексные эксперименты демонстрируют эффективность нашего подхода. Дополнительный анализ показывает, что управление демонстрирует превосходную устойчивость и гибкость, особенно в условиях атак. Мы также применяем стратегию управления к крупной модели рассуждений, подтверждая ее эффективность в точном контроле логических процессов.
Мы представляем FinTagging — первый комплексный бенчмарк, учитывающий таблицы, для оценки возможностей крупных языковых моделей (LLM) в извлечении структурированной информации и семантическом выравнивании в контексте финансовой отчетности на основе XBRL. В отличие от предыдущих бенчмарков, которые упрощают XBRL-тегирование до плоской многоклассовой классификации и сосредотачиваются исключительно на текстовых данных, FinTagging разбивает задачу XBRL-тегирования на две подзадачи: FinNI для извлечения финансовых сущностей и FinCL для выравнивания концепций на основе таксономии. Он требует от моделей совместного извлечения фактов и их сопоставления с полной таксономией US-GAAP, содержащей более 10 тысяч элементов, как в неструктурированном тексте, так и в структурированных таблицах, что позволяет проводить реалистичную и детальную оценку. Мы тестируем разнообразные LLM в условиях zero-shot, систематически анализируя их производительность в обеих подзадачах и общую точность тегирования. Наши результаты показывают, что, хотя LLM демонстрируют сильную обобщающую способность в извлечении информации, они испытывают трудности с детальным выравниванием концепций, особенно в разграничении близких по смыслу элементов таксономии. Эти выводы подчеркивают ограничения существующих LLM в полной автоматизации XBRL-тегирования и указывают на необходимость улучшения семантического анализа и моделирования с учетом схемы для удовлетворения требований точного финансового раскрытия. Код доступен в нашем репозитории на GitHub, а данные — в репозитории на Hugging Face.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали выдающиеся способности в понимании и анализе визуального контента, однако значительные трудности сохраняются в задачах, требующих кросс-перспективного понимания и пространственного мышления. Мы выявили ключевое ограничение: современные VLMs преуспевают в основном в эгоцентрическом пространственном мышлении (с точки зрения камеры), но не способны обобщать знания для аллоцентрических перспектив, когда требуется принять пространственную систему отсчета другого объекта. Мы представляем ViewSpatial-Bench — первый всеобъемлющий бенчмарк, разработанный специально для оценки распознавания пространственной локализации с учетом множества перспектив, охватывающий пять различных типов задач и поддерживаемый автоматизированным конвейером 3D-аннотаций, который генерирует точные направленные метки. Комплексная оценка разнообразных VLMs на ViewSpatial-Bench выявила значительный разрыв в производительности: модели демонстрируют приемлемые результаты в задачах с перспективой камеры, но показывают сниженную точность при анализе с точки зрения человека. Благодаря тонкой настройке VLMs на нашем многоперспективном пространственном наборе данных мы достигли общего улучшения производительности на 46,24% по всем задачам, что подчеркивает эффективность нашего подхода. Наша работа устанавливает важный бенчмарк для пространственного интеллекта в воплощенных системах искусственного интеллекта и предоставляет эмпирические доказательства того, что моделирование 3D-пространственных отношений усиливает соответствующие способности VLMs к пространственному пониманию.
Масштабируемая векторная графика (SVG) представляет собой мощный формат для представления визуальных дизайнов в виде интерпретируемого кода. Последние достижения в моделях, объединяющих зрение и язык (VLMs), позволили добиться высококачественной генерации SVG, формулируя задачу как генерацию кода и используя крупномасштабное предварительное обучение. VLMs особенно подходят для этой задачи, так как они захватывают как глобальную семантику, так и детализированные визуальные паттерны, одновременно перенося знания между областями зрения, естественного языка и кода. Однако существующие подходы на основе VLMs часто сталкиваются с трудностями в создании точных и эффективных SVG, поскольку они никогда не наблюдают визуализированные изображения в процессе обучения. Хотя дифференцируемая визуализация для авторегрессивной генерации кода SVG пока недоступна, визуализированные результаты всё же можно сравнивать с исходными изображениями, что позволяет получать оценочную обратную связь, подходящую для обучения с подкреплением (RL). Мы представляем RLRF (Reinforcement Learning from Rendering Feedback) — метод RL, который улучшает генерацию SVG в авторегрессивных VLMs, используя обратную связь от визуализированных SVG-результатов. Для заданного входного изображения модель генерирует последовательности SVG, которые визуализируются и сравниваются с исходным изображением для вычисления награды. Эта обратная связь по визуальной точности направляет модель на создание более точных, эффективных и семантически согласованных SVG. RLRF значительно превосходит контролируемую тонкую настройку, устраняя типичные ошибки и обеспечивая точную, высококачественную генерацию SVG с глубоким пониманием структуры и обобщением.
Недавние исследования показывают, что способности к рассуждению у крупных языковых моделей (LLM) могут быть улучшены за счет применения обучения с подкреплением (RL) к задачам вопросов и ответов (QA) в таких областях, как математика и программирование. При большой длине контекста LLM могут научиться выполнять поиск, что подтверждается наблюдаемым поведением самокоррекции в модели DeepSeek R1. Однако такое поисковое поведение часто оказывается неточным и неуверенным, что приводит к длинным, избыточным ответам и подчеркивает недостатки в интуиции и проверке. Вдохновленные теорией двойного процесса в психологии, мы предлагаем простое изменение задачи QA, включающее четыре этапа: Быстрое мышление, где LLM должна ответить в рамках строгого ограничения на количество токенов; Проверка, где модель оценивает свой первоначальный ответ; Медленное мышление, где она уточняет первоначальный ответ с большей обдуманностью; и Резюмирование, где она выделяет ключевые шаги из уточнения предыдущего этапа. Наша предложенная задача повышает среднюю точность с 24,9% до 27,9% для модели Qwen2.5-1.5B и с 45,9% до 49,8% для модели DeepSeek-R1-Qwen-1.5B. Примечательно, что для Qwen2.5-1.5B режим Быстрого мышления самостоятельно достигает точности 26,8%, используя менее 1000 токенов, что демонстрирует значительное повышение эффективности вывода. Эти результаты указывают на то, что интуиция и обдуманное рассуждение представляют собой различные, но дополняющие друг друга системы, которые выигрывают от целенаправленного обучения.
Мы представляем VisTA, новый фреймворк обучения с подкреплением, который позволяет визуальным агентам динамически исследовать, выбирать и комбинировать инструменты из разнообразной библиотеки на основе эмпирической производительности. Существующие методы для рассуждений с использованием инструментов либо полагаются на обучение без тренировки (training-free prompting), либо на крупномасштабную тонкую настройку (fine-tuning); оба подхода не предусматривают активного исследования инструментов и обычно предполагают ограниченное разнообразие инструментов, а методы тонкой настройки дополнительно требуют значительного человеческого контроля. В отличие от них, VisTA использует сквозное обучение с подкреплением для итеративного уточнения сложных стратегий выбора инструментов, специфичных для запроса, используя результаты задач в качестве сигналов обратной связи. Благодаря оптимизации групповой относительной политики (Group Relative Policy Optimization, GRPO), наш фреймворк позволяет агенту автономно находить эффективные пути выбора инструментов без необходимости явного контроля за рассуждениями. Эксперименты на бенчмарках ChartQA, Geometry3K и BlindTest демонстрируют, что VisTA достигает значительного улучшения производительности по сравнению с базовыми методами без обучения, особенно на примерах, выходящих за пределы распределения данных. Эти результаты подчеркивают способность VisTA улучшать обобщение, адаптивно использовать разнообразные инструменты и прокладывать путь к гибким системам визуального рассуждения, основанным на опыте.
Мультимодальные большие языковые модели (MLLMs) остаются уязвимыми для переносимых состязательных примеров. Хотя существующие методы обычно достигают целевых атак путем выравнивания глобальных признаков — таких как [CLS]-токен в CLIP — между состязательными и целевыми образцами, они часто упускают из виду богатую локальную информацию, закодированную в токенах патчей. Это приводит к неоптимальному выравниванию и ограниченной переносимости, особенно для моделей с закрытым исходным кодом. Чтобы устранить это ограничение, мы предлагаем метод целевой переносимой состязательной атаки, основанный на оптимальном выравнивании признаков, называемый FOA-Attack, для улучшения способности к переносу состязательных примеров. В частности, на глобальном уровне мы вводим функцию потерь для глобальных признаков, основанную на косинусном сходстве, чтобы выровнять крупнозернистые признаки состязательных образцов с признаками целевых образцов. На локальном уровне, учитывая богатые локальные представления в Transformers, мы используем методы кластеризации для извлечения компактных локальных паттернов, чтобы уменьшить избыточность локальных признаков. Затем мы формулируем выравнивание локальных признаков между состязательными и целевыми образцами как задачу оптимального транспорта (OT) и предлагаем функцию потерь для локальной кластеризации оптимального транспорта, чтобы уточнить мелкозернистое выравнивание признаков. Кроме того, мы предлагаем стратегию динамического взвешивания ансамбля моделей для адаптивного балансирования влияния нескольких моделей в процессе генерации состязательных примеров, что дополнительно улучшает переносимость. Многочисленные эксперименты на различных моделях демонстрируют превосходство предложенного метода, превосходящего современные методы, особенно в переносе на MLLMs с закрытым исходным кодом. Код доступен по адресу https://github.com/jiaxiaojunQAQ/FOA-Attack.
Мы представляем SeePhys, крупномасштабный мультимодальный бенчмарк для проверки способности языковых моделей к рассуждениям на основе физических вопросов, охватывающих уровень от средней школы до квалификационных экзаменов PhD. Бенчмарк охватывает 7 фундаментальных областей физики и включает 21 категорию высоко гетерогенных диаграмм. В отличие от предыдущих работ, где визуальные элементы в основном выполняли вспомогательную функцию, наш бенчмарк содержит значительную долю задач (75%), для решения которых критически важно извлечение визуальной информации. В ходе масштабной оценки мы обнаружили, что даже самые передовые модели визуального рассуждения (например, Gemini-2.5-pro и o4-mini) демонстрируют точность ниже 60% на нашем бенчмарке. Эти результаты выявляют фундаментальные проблемы в текущих возможностях крупных языковых моделей в области визуального понимания, особенно в: (i) установлении строгой связи между интерпретацией диаграмм и физическими рассуждениями, и (ii) преодолении их устойчивой зависимости от текстовых подсказок как когнитивных сокращений.
Автоматическая оценка мультимодальной генерации представляет собой значительную проблему, поскольку автоматизированные метрики часто не могут надежно согласовываться с человеческой оценкой, особенно для сложных задач, включающих несколько модальностей. Для решения этой проблемы мы представляем MMMG — всеобъемлющий и согласованный с человеческой оценкой бенчмарк для мультимодальной генерации, охватывающий 4 комбинации модальностей (изображение, аудио, чередующийся текст и изображение, чередующийся текст и аудио), с акцентом на задачи, которые представляют значительные трудности для моделей генерации, при этом обеспечивая надежную автоматическую оценку с помощью комбинации моделей и программ. MMMG включает 49 задач (в том числе 29 новых), каждая из которых имеет тщательно разработанный конвейер оценки, и 937 инструкций для систематической проверки способностей мультимодальных моделей генерации к рассуждению, управляемости и другим ключевым аспектам. Обширная валидация демонстрирует, что MMMG высоко согласован с человеческой оценкой, достигая среднего уровня согласия 94,3%. Результаты тестирования 24 моделей мультимодальной генерации показывают, что даже самая современная модель, GPT Image, достигает точности 78,3% в генерации изображений, но отстает в мультимодальном рассуждении и чередующейся генерации. Кроме того, результаты указывают на значительный потенциал для улучшения в области генерации аудио, что подчеркивает важное направление для будущих исследований.
Крупные языковые модели (LLM), обученные с использованием обучения с подкреплением (RL), продемонстрировали мощные способности к рассуждению и проявление рефлексивного поведения, такого как возврат к предыдущим шагам и исправление ошибок. Однако традиционное марковское RL ограничивает исследование только фазой обучения для поиска оптимальной детерминированной политики и зависит от контекста истории исключительно через текущее состояние. Поэтому остается неясным, будет ли рефлексивное рассуждение возникать в процессе марковского RL-обучения и почему оно полезно на этапе тестирования. Чтобы устранить этот пробел, мы переосмысливаем рефлексивное исследование в рамках байесовского адаптивного RL, который явно оптимизирует ожидаемую доходность при апостериорном распределении над марковскими процессами принятия решений. Эта байесовская формулировка по своей сути стимулирует как эксплуатацию, направленную на максимизацию вознаграждения, так и исследование, направленное на сбор информации, через обновление убеждений. Наш алгоритм, BARL, предписывает LLM комбинировать и переключать стратегии на основе наблюдаемых результатов, предлагая принципиальные рекомендации о том, когда и как модель должна рефлексивно исследовать. Эмпирические результаты на синтетических задачах и задачах математического рассуждения показывают, что BARL превосходит стандартные подходы марковского RL на этапе тестирования, достигая превосходной эффективности использования токенов с улучшенной эффективностью исследования. Наш код доступен по адресу https://github.com/shenao-zhang/BARL.
Поскольку масштабирование во время тестирования становится ключевым направлением исследований в разработке крупных языковых моделей (LLM), современные и передовые методы пост-обучения всё больше сосредотачиваются на увеличении длины генерации длинных цепочек рассуждений (Chain-of-Thought, CoT) для улучшения способностей к рассуждению, приближаясь к уровню производительности DeepSeek R1. Однако последние исследования выявили устойчивое явление "переобдумывания" в современных моделях рассуждений, проявляющееся в избыточной избыточности или повторяющихся паттернах мышления в длинных CoT-ответах. Для решения этой проблемы в данной статье мы предлагаем простую, но эффективную двухэтапную структуру обучения с подкреплением для достижения лаконичности рассуждений в LLM, названную ConciseR. В частности, первый этап, использующий больше шагов обучения, направлен на стимулирование способностей модели к рассуждению с помощью групповой относительной оптимизации политики с компонентами clip-higher и динамической выборки (GRPO++), а второй этап, использующий меньше шагов обучения, явно обеспечивает лаконичность и повышает эффективность с помощью групповой относительной оптимизации политики с учётом длины (L-GRPO). Важно отметить, что ConciseR оптимизирует длину ответа только после того, как все прогоны образца оказываются правильными, следуя принципу "сначала научись ходить, потом бегать". Обширные экспериментальные результаты демонстрируют, что наша модель ConciseR, генерирующая более лаконичные CoT-ответы, превосходит современные модели рассуждений с нулевым обучением с подкреплением на таких тестах, как AIME 2024, MATH-500, AMC 2023, Minerva и олимпиадные бенчмарки.
Понимание перспективы является фундаментальным аспектом человеческого зрительного восприятия, однако степень, в которой мультимодальные большие языковые модели (MLLMs) усваивают геометрию перспективы, остается неясной. Мы представляем MMPerspective — первый бенчмарк, специально разработанный для систематической оценки понимания перспективы MLLMs с помощью 10 тщательно продуманных задач, охватывающих три взаимодополняющих аспекта: восприятие перспективы, рассуждение и устойчивость. Наш бенчмарк включает 2 711 реальных и синтетических изображений с 5 083 парами вопросов и ответов, которые исследуют ключевые способности, такие как восприятие и подсчет точек схода, рассуждение о типах перспективы, понимание отношений линий в трехмерном пространстве, инвариантность к преобразованиям, сохраняющим перспективу, и т.д. В результате всесторонней оценки 43 современных MLLMs мы выявили значительные ограничения: хотя модели демонстрируют компетентность в поверхностных перцептивных задачах, они испытывают трудности с композиционным рассуждением и поддержанием пространственной согласованности при возмущениях. Наш анализ также выявляет интересные закономерности между архитектурой модели, масштабом и способностями к пониманию перспективы, подчеркивая как узкие места в устойчивости, так и преимущества цепочек рассуждений (chain-of-thought prompting). MMPerspective создает ценную основу для диагностики и улучшения пространственного понимания в системах, объединяющих зрение и язык. Ресурсы доступны по адресу: https://yunlong10.github.io/MMPerspective/
Последние достижения в области больших языковых моделей (LLM) позволили агентам автономно выполнять сложные, открытые задачи. Однако многие существующие фреймворки сильно зависят от заранее определенных инструментов и рабочих процессов, что ограничивает их адаптируемость, масштабируемость и обобщаемость в различных областях. В данной работе мы представляем Alita — универсального агента, разработанного в соответствии с принципом «Простота — это высшая степень изощренности», что позволяет масштабировать агентное рассуждение за счет минимальной предопределенности и максимальной самоэволюции. Для минимальной предопределенности Alita оснащена только одним компонентом для прямого решения задач, что делает её значительно проще и лаконичнее по сравнению с предыдущими подходами, которые сильно зависели от тщательно разработанных инструментов и рабочих процессов. Такой чистый дизайн повышает её потенциал для обобщения сложных вопросов, не ограничиваясь инструментами. Для максимальной самоэволюции мы обеспечиваем креативность Alita, предоставляя набор универсальных компонентов для автономного создания, уточнения и повторного использования внешних возможностей путем генерации контекстных протоколов модели (MCP), связанных с задачами, из открытых источников, что способствует масштабируемому агентному рассуждению. Примечательно, что Alita достигает точности 75,15% для pass@1 и 87,27% для pass@3 на валидационном наборе данных GAIA, а также 74,00% и 52,00% для pass@1 на Mathvista и PathVQA соответственно, превосходя многие агентные системы с гораздо большей сложностью. Дополнительные детали будут обновляться на https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокие результаты на тестах по программированию и математике, которые являются сложными для людей, однако их способность выполнять задачи, естественные для человека, такие как восприятие, пространственная навигация и управление памятью, остается недостаточно изученной. Настоящие видеоигры создаются таким образом, чтобы быть интуитивно понятными для обучения и освоения человеком, используя врожденные индуктивные предубеждения, что делает их идеальной платформой для оценки таких способностей в VLMs. В связи с этим мы представляем VideoGameBench — эталонный набор, состоящий из 10 популярных видеоигр 1990-х годов, с которыми VLMs взаимодействуют в реальном времени. VideoGameBench ставит перед моделями задачу пройти целые игры, имея доступ только к необработанным визуальным данным и высокоуровневому описанию целей и управления, что значительно отличается от существующих подходов, которые полагаются на специфические для игры структуры и вспомогательную информацию. Три игры остаются скрытыми, чтобы стимулировать разработку решений, обобщаемых на неизвестные среды. Наши эксперименты показывают, что передовые модели, объединяющие зрение и язык, с трудом продвигаются дальше начальных этапов каждой игры. Мы выявили, что задержка вывода является основным ограничением передовых моделей в условиях реального времени; поэтому мы вводим VideoGameBench Lite — режим, в котором игра приостанавливается в ожидании следующего действия языковой модели. Лучшая модель, Gemini 2.5 Pro, завершает только 0,48% VideoGameBench и 1,6% VideoGameBench Lite. Мы надеемся, что формализация упомянутых выше человеческих навыков в рамках этого эталонного набора будет способствовать прогрессу в данных направлениях исследований.
С быстрым развитием методов посттренировочной обработки для задач рассуждения и поиска информации крупные языковые модели (LLM) могут интегрировать значительные объемы извлеченных знаний для решения сложных задач. Однако ограниченный размер контекстного окна LLM препятствует масштабированию объема внешних знаний, что сдерживает дальнейшее улучшение, особенно для задач, требующих значительного объема внешней информации. Существующие методы расширения контекстного окна неизбежно приводят к потере информации. Мультиагентные методы на основе LLM появляются как новая парадигма для обработки больших объемов данных распределенным образом, где мы выделяем два ключевых узких места в существующих процессах синхронизации знаний и рассуждения. В данной работе мы разрабатываем мультиагентный фреймворк, ExtAgents, чтобы преодолеть эти узкие места и обеспечить лучшую масштабируемость при интеграции знаний на этапе вывода без необходимости обучения с увеличенным контекстом. Протестированный на нашем улучшенном наборе данных для многошагового ответа на вопросы, $boldsymbol{inftyBench+}$, и других публичных наборах данных, включая генерацию длинных опросов, ExtAgents значительно улучшает производительность по сравнению с существующими методами, не требующими обучения, при том же объеме входных внешних знаний, независимо от того, укладываются ли они в контекстное окно или превышают его. Более того, метод сохраняет высокую эффективность благодаря высокой степени параллелизма. Дальнейшее изучение координации агентов LLM при увеличении объема внешних знаний может принести пользу реальным приложениям.
Задача интерполяции кадров заключается в синтезе промежуточных видеопоследовательностей, обусловленных заданными начальным и конечным кадрами. Современные передовые методы в основном расширяют крупномасштабные предобученные модели диффузии "Изображение-в-Видео" (I2V-DMs), добавляя ограничения на конечный кадр через прямое тонкое настраивание или исключая обучение. Мы выявили ключевое ограничение в их конструкции: внедрение ограничения на конечный кадр обычно использует тот же механизм, который изначально накладывал ограничение на начальный кадр (одиночное изображение). Однако, поскольку оригинальные I2V-DMs уже достаточно обучены для условия начального кадра, простое добавление ограничения на конечный кадр тем же механизмом с гораздо меньшим (или даже нулевым) специализированным обучением, вероятно, не позволяет конечному кадру оказывать столь же сильное влияние на промежуточное содержание, как начальному кадру. Эта асимметричная сила контроля двух кадров над промежуточным содержанием, вероятно, приводит к несогласованному движению или коллапсу внешнего вида в сгенерированных кадрах. Для эффективного достижения симметричных ограничений начального и конечного кадров мы предлагаем новую структуру, названную Sci-Fi, которая применяет более сильное внедрение для ограничения с меньшим масштабом обучения. В частности, она обрабатывает ограничение на начальный кадр как прежде, но вводит ограничение на конечный кадр через улучшенный механизм. Новый механизм основан на хорошо спроектированном легковесном модуле, названном EF-Net, который кодирует только конечный кадр и расширяет его во временно адаптивные пофреймовые признаки, внедряемые в I2V-DM. Это делает ограничение на конечный кадр столь же сильным, как и на начальный кадр, позволяя нашему Sci-Fi создавать более гармоничные переходы в различных сценариях. Многочисленные эксперименты подтверждают превосходство нашего Sci-Fi по сравнению с другими базовыми методами.
Модели генерации видео на основе Diffusion Transformer (DiT) создают высококачественные видео в больших масштабах, но сталкиваются с неприемлемо высокой задержкой обработки и затратами памяти для длинных видео. Чтобы решить эту проблему, мы предлагаем новую стратегию распределенного вывода, названную DualParal. Основная идея заключается в том, что вместо генерации всего видео на одном GPU мы параллелизуем как временные кадры, так и слои модели на нескольких GPU. Однако наивная реализация такого разделения сталкивается с ключевым ограничением: поскольку диффузионные модели требуют синхронизированных уровней шума между кадрами, такая реализация приводит к сериализации изначально параллельных процессов. Мы используем блочную схему удаления шума для решения этой проблемы. А именно, мы обрабатываем последовательность блоков кадров через конвейер с постепенно уменьшающимися уровнями шума. Каждый GPU обрабатывает определенный блок и подмножество слоев, передавая предыдущие результаты следующему GPU, что позволяет асинхронные вычисления и коммуникацию. Для дальнейшей оптимизации производительности мы внедряем два ключевых улучшения. Во-первых, на каждом GPU реализуется кэш признаков для хранения и повторного использования признаков из предыдущего блока в качестве контекста, что минимизирует меж-GPU коммуникацию и избыточные вычисления. Во-вторых, мы применяем согласованную стратегию инициализации шума, обеспечивая глобально согласованную временную динамику за счет совместного использования начальных паттернов шума между GPU без дополнительных затрат ресурсов. В совокупности это позволяет быстрое, артефакт-свободное и бесконечно длинное генерирование видео. Примененный к последнему генератору видео на основе диффузионного трансформера, наш метод эффективно создает видео из 1025 кадров с задержкой до 6.54 раз ниже и затратами памяти до 1.48 раз меньше на 8 GPU RTX 4090.
Посттренировочное сжатие снижает вычислительные и затраты на память для больших языковых моделей (LLM), обеспечивая ресурсоэффективное развертывание. Однако существующие бенчмарки сжатия сосредоточены только на языковом моделировании (например, перплексия) и задачах понимания естественного языка (например, точность GLUE), игнорируя агентские возможности — рабочие процессы, использование инструментов/вызов функций, понимание длинного контекста и реальные приложения. Мы представляем бенчмарк Agent Compression Benchmark (ACBench), первый всеобъемлющий бенчмарк для оценки влияния сжатия на агентские способности LLM. ACBench охватывает (1) 12 задач по 4 направлениям (например, WorfBench для генерации рабочих процессов, Needle-in-Haystack для поиска в длинном контексте), (2) квантование (GPTQ, AWQ) и прореживание (Wanda, SparseGPT), а также (3) 15 моделей, включая малые (Gemma-2B), стандартные (Qwen2.5 7B-32B) и дистиллированные модели для рассуждений (DeepSeek-R1-Distill). Наши эксперименты выявляют компромиссы сжатия: 4-битное квантование сохраняет генерацию рабочих процессов и использование инструментов (падение на 1%-3%), но снижает точность в реальных приложениях на 10%-15%. Мы вводим ERank, корреляцию ранжирования Top-k и энергию для систематизации анализа. ACBench предоставляет практические рекомендации для оптимизации сжатия LLM в агентских сценариях. Код доступен по адресу https://github.com/pprp/ACBench.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали многообещающие результаты в интеграции различных модальностей, таких как тексты и изображения. MLLMs подвержены значительному влиянию модальностного смещения, часто полагаясь на язык и недостаточно используя другие модальности, такие как визуальные данные. В данной позиционной статье утверждается, что MLLMs глубоко подвержены модальностному смещению. Во-первых, мы диагностируем текущее состояние модальностного смещения, выделяя его проявления в различных задачах. Во-вторых, мы предлагаем систематическую дорожную карту исследований, связанных с модальностным смещением в MLLMs. В-третьих, мы определяем ключевые факторы модальностного смещения в MLLMs и предлагаем практические рекомендации для будущих исследований с целью его смягчения. Для подтверждения этих выводов мы проводим эксперименты, демонстрирующие влияние каждого фактора: 1. Характеристики данных: Языковые данные компактны и абстрактны, в то время как визуальные данные избыточны и сложны, что создает внутренний дисбаланс в динамике обучения. 2. Несбалансированные возможности базовых моделей: Доминирование предобученных языковых моделей в MLLMs приводит к чрезмерной зависимости от языка и пренебрежению визуальной информацией. 3. Цели обучения: Текущие цели обучения часто не способствуют сбалансированному кросс-модальному выравниванию, что приводит к обучению с использованием "коротких путей", смещенных в сторону языка. Эти результаты подчеркивают необходимость сбалансированных стратегий обучения и архитектур моделей для более эффективной интеграции множественных модальностей в MLLMs. Мы призываем к междисциплинарным усилиям для решения этих задач и стимулирования инноваций в исследованиях MLLMs. Наша работа предлагает новый взгляд на модальностное смещение в MLLMs и предоставляет идеи для разработки более устойчивых и обобщаемых мультимодальных систем, способствуя прогрессу в направлении Искусственного Общего Интеллекта.
Биомедицинские исследователи всё чаще полагаются на крупномасштабные структурированные базы данных для выполнения сложных аналитических задач. Однако современные системы преобразования текста в SQL часто испытывают трудности с преобразованием качественных научных вопросов в исполняемые SQL-запросы, особенно когда требуется неявное доменное рассуждение. Мы представляем BiomedSQL — первый эталонный набор, специально разработанный для оценки научного рассуждения в генерации SQL из текста на основе реальной биомедицинской базы знаний. BiomedSQL включает 68 000 троек вопрос/SQL-запрос/ответ, основанных на унифицированной базе данных BigQuery, которая интегрирует ассоциации генов и заболеваний, причинно-следственные выводы из омиксных данных и записи об одобрении лекарств. Каждый вопрос требует от моделей вывода доменно-специфических критериев, таких как пороги значимости на уровне генома, направленность эффекта или фильтрация по фазам клинических испытаний, а не просто синтаксического перевода. Мы оцениваем ряд открытых и закрытых языковых моделей (LLM) с использованием различных стратегий запросов и парадигм взаимодействия. Наши результаты выявляют значительный разрыв в производительности: GPT-o3-mini достигает точности выполнения 59,0%, в то время как наш пользовательский многошаговый агент BMSQL достигает 62,6%, что значительно ниже экспертного базового уровня в 90,0%. BiomedSQL предоставляет новую основу для развития систем преобразования текста в SQL, способных поддерживать научные открытия за счёт устойчивого рассуждения над структурированными биомедицинскими базами знаний. Наш набор данных доступен публично по адресу https://huggingface.co/datasets/NIH-CARD/BiomedSQL, а наш код является открытым и доступен на https://github.com/NIH-CARD/biomedsql.
Крупные языковые модели (LLM) обладают высокой мощностью, но склонны к галлюцинациям из-за статичности их знаний. Метод генерации с усилением поиском (RAG) помогает, вводя внешнюю информацию, однако текущие подходы часто оказываются затратными, плохо обобщаются или игнорируют внутренние знания модели. В данной работе мы представляем R1-Searcher++ — новый фреймворк, предназначенный для обучения LLM адаптивному использованию как внутренних, так и внешних источников знаний. R1-Searcher++ применяет двухэтапную стратегию обучения: начальный этап SFT Cold-start для предварительного изучения формата, за которым следует этап обучения с подкреплением (RL) для динамического приобретения знаний. На этапе RL используется контроль по результатам для стимулирования исследования, встроен механизм вознаграждения за использование внутренних знаний, а также интегрирован механизм запоминания для непрерывного усвоения извлеченной информации, что обогащает внутренние знания модели. Благодаря использованию внутренних знаний и внешней поисковой системы, модель непрерывно улучшает свои способности, обеспечивая эффективное рассуждение с усилением поиском. Наши эксперименты показывают, что R1-Searcher++ превосходит предыдущие методы RAG и рассуждения, достигая эффективного поиска. Код доступен по адресу https://github.com/RUCAIBox/R1-Searcher-plus.
Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению, но их возможности ограничены объемом имеющихся знаний. Подход, основанный на извлечении информации для усиления рассуждений, смягчает это ограничение, позволяя языковым моделям запрашивать внешние ресурсы. Однако существующие методы часто извлекают нерелевантную или зашумленную информацию, что затрудняет точное рассуждение. В данной статье мы предлагаем AutoRefine — фреймворк для пост-обучения с использованием обучения с подкреплением, который реализует новую парадигму «поиск и уточнение в процессе мышления». AutoRefine вводит явные шаги уточнения знаний между последовательными запросами, что позволяет модели итеративно фильтровать, обобщать и организовывать доказательства перед генерацией ответа. Кроме того, мы включаем специализированные вознаграждения, связанные с извлечением информации, наряду с вознаграждениями за правильность ответа, используя оптимизацию групповой относительной политики. Эксперименты на бенчмарках для одношаговых и многошаговых вопросно-ответных задач показывают, что AutoRefine значительно превосходит существующие подходы, особенно в сложных сценариях многошагового рассуждения. Детальный анализ демонстрирует, что AutoRefine выполняет частые и более качественные запросы, а также эффективно синтезирует доказательства.
Быстрое развитие крупных мультимодальных моделей (LMM) для 2D-изображений и видео стимулировало расширение этих моделей для понимания 3D-сцен, стремясь к достижению человеческого уровня визуально-пространственного интеллекта. Тем не менее, достижение глубокого пространственного понимания, сопоставимого с человеческими способностями, представляет значительные трудности в кодировании моделей и сборе данных. Существующие методы часто зависят от внешних датчиков глубины для захвата геометрии или используют готовые алгоритмы для предварительного построения 3D-карт, что ограничивает их масштабируемость, особенно при работе с распространенными монохромными видео и в приложениях, чувствительных ко времени. В данной работе мы представляем VLM-3R — унифицированную структуру для моделей, объединяющих зрение и язык (VLMs), которая включает настройку на основе 3D-реконструктивных инструкций. VLM-3R обрабатывает кадры монохромного видео, используя геометрический кодировщик для получения неявных 3D-токенов, представляющих пространственное понимание. Благодаря нашему подходу Spatial-Visual-View Fusion и более чем 200 тыс. тщательно отобранных пар вопросов и ответов (QA) для настройки на 3D-реконструктивные инструкции, VLM-3R эффективно связывает реальный пространственный контекст с языковыми инструкциями. Это позволяет осуществлять монохромную 3D-пространственную помощь и воплощенное рассуждение. Для облегчения оценки временного рассуждения мы представляем эталонный тест Vision-Spatial-Temporal Intelligence, содержащий более 138,6 тыс. пар QA по пяти различным задачам, сосредоточенным на изменяющихся пространственных отношениях. Многочисленные эксперименты демонстрируют, что наша модель, VLM-3R, не только способствует устойчивому визуально-пространственному рассуждению, но и позволяет понимать изменения временного 3D-контекста, превосходя по точности и масштабируемости.
Мультимодальный поиск информации (MIR) сталкивается с внутренними трудностями из-за неоднородности источников данных и сложности кросс-модального согласования. Хотя предыдущие исследования выявили модальные разрывы в пространствах признаков, систематический подход к решению этих проблем остается неисследованным. В данной работе мы представляем UNITE — универсальную структуру, которая решает эти задачи через два критических, но недостаточно изученных аспекта: курацию данных и модально-ориентированные конфигурации обучения. Наша работа предоставляет первый всесторонний анализ того, как специфические для модальности свойства данных влияют на производительность в различных сценариях. Кроме того, мы предлагаем Modal-Aware Masked Contrastive Learning (MAMCL) для смягчения конкурентных отношений между экземплярами разных модальностей. Наша структура достигает современных результатов на нескольких мультимодальных бенчмарках, значительно превосходя существующие методы. Благодаря обширным экспериментам мы демонстрируем, что стратегическая курация модальностей и адаптированные протоколы обучения являются ключевыми для устойчивого кросс-модального обучения представлений. Эта работа не только улучшает производительность MIR, но и предоставляет основу для будущих исследований в мультимодальных системах. Наш проект доступен по адресу https://friedrichor.github.io/projects/UNITE.
Задача выделения целевой речи (Target Speech Extraction, TSE) заключается в изоляции голоса целевого говорящего из смеси нескольких голосов с использованием специфических для говорящего признаков, которые обычно предоставляются в виде вспомогательного аудио (так называемого cue audio). Хотя последние достижения в области TSE в основном основываются на дискриминативных моделях, обеспечивающих высокое перцептивное качество, такие модели часто вносят нежелательные артефакты, снижают естественность звучания и чувствительны к расхождениям между условиями обучения и тестирования. С другой стороны, генеративные модели для TSE отстают по перцептивному качеству и разборчивости. Для решения этих проблем мы представляем SoloSpeech — новый каскадный генеративный подход, который объединяет процессы сжатия, извлечения, восстановления и коррекции. SoloSpeech включает в себя экстрактор целевой речи, не требующий использования эмбеддингов говорящего, который использует условную информацию из латентного пространства cue audio, согласуя его с латентным пространством смешанного аудио, чтобы избежать несоответствий. Протестированный на широко используемом наборе данных Libri2Mix, SoloSpeech достигает нового уровня разборчивости и качества в задачах выделения целевой речи и разделения речи, демонстрируя исключительную обобщаемость на данных из других доменов и в реальных сценариях.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) значительно расширили их возможности; однако их способности к пространственному восприятию остаются заметным ограничением. Для решения этой задачи синтез мультимодальных данных предлагает перспективное решение. Тем не менее, обеспечение того, чтобы синтезированные данные соответствовали пространственной логике, является нетривиальной задачей. В данной работе мы представляем SKG2Data — новый подход к мультимодальному синтезу, основанный на пространственных графах знаний и концепции генерации данных на основе знаний. SKG2Data автоматически строит Пространственный Граф Знаний (SKG), имитирующий человеческое восприятие направлений и расстояний, который затем используется для управления синтезом мультимодальных данных. Многочисленные эксперименты показывают, что данные, синтезированные на основе различных типов пространственных знаний, включая направление и расстояние, не только улучшают способности MLLMs к пространственному восприятию и рассуждению, но также демонстрируют сильные обобщающие способности. Мы надеемся, что идея синтеза данных на основе знаний сможет способствовать развитию пространственного интеллекта.
В то время как системы виртуальной примерки (VTON) направлены на визуализацию одежды на изображении целевого человека, данная статья решает новую задачу виртуального снятия (VTOFF), которая обратна по своей сути: генерация стандартизированных изображений товаров одежды из реальных фотографий одетых людей. В отличие от VTON, где необходимо учитывать разнообразные позы и стили, VTOFF выигрывает от согласованного и четко определенного формата вывода — обычно это плоское изображение одежды в стиле "лежащего" представления, — что делает его перспективным инструментом для генерации данных и улучшения наборов данных. Однако существующие подходы VTOFF сталкиваются с двумя основными ограничениями: (i) сложностью отделения характеристик одежды от перекрытий и сложных поз, что часто приводит к визуальным артефактам, и (ii) ограниченной применимостью к одежде одной категории (например, только верхняя одежда), что снижает обобщаемость. Для решения этих проблем мы представляем Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), новую архитектуру с двойной DiT-основой и модифицированным мультимодальным механизмом внимания для устойчивого извлечения характеристик одежды. Наша архитектура предназначена для получения информации об одежде из нескольких модальностей, таких как изображения, текст и маски, для работы в многокатегорийной среде. Наконец, мы предлагаем дополнительный модуль выравнивания для дальнейшего уточнения сгенерированных визуальных деталей. Эксперименты на наборах данных VITON-HD и Dress Code показывают, что TEMU-VTOFF устанавливает новый эталон в задаче VTOFF, значительно улучшая как визуальное качество, так и соответствие целевой одежде.
По мере роста возможностей и автономности крупных языковых моделей выявление уязвимостей с помощью методов "красного командования" становится критически важным для безопасного внедрения. Однако традиционные подходы, основанные на инженерии запросов, могут оказаться неэффективными, когда "красное командование" превращается в задачу "слабый против сильного", где целевые модели превосходят атакующих по возможностям. Чтобы изучить этот сдвиг, мы рассматриваем "красное командование" через призму разрыва в возможностях между атакующим и целью. Мы оцениваем более 500 пар "атакующий-цель", используя атаки на основе LLM, имитирующие действия человека-атакующего, для различных семейств, размеров и уровней возможностей моделей. Выявляются три устойчивые тенденции: (i) более мощные модели лучше справляются с атаками, (ii) успешность атак резко снижается, когда возможности цели превышают возможности атакующего, и (iii) уровень успешности атак коррелирует с высокой производительностью на разделах социальных наук в бенчмарке MMLU-Pro. На основе этих тенденций мы выводим закон масштабирования для взлома, который предсказывает успешность атаки для фиксированной цели в зависимости от разрыва в возможностях между атакующим и целью. Эти результаты свидетельствуют о том, что атакующие с фиксированными возможностями (например, люди) могут стать неэффективными против будущих моделей, растущие возможности моделей с открытым исходным кодом усиливают риски для существующих систем, а разработчики моделей должны точно измерять и контролировать способности моделей к убеждению и манипуляции, чтобы ограничить их эффективность в качестве атакующих.
Цифровая криминалистика и реагирование на инциденты (Digital Forensics and Incident Response, DFIR) включает анализ цифровых доказательств для поддержки юридических расследований. Большие языковые модели (Large Language Models, LLMs) открывают новые возможности в задачах DFIR, таких как анализ логов и криминалистика памяти, но их склонность к ошибкам и галлюцинациям вызывает опасения в контекстах с высокими ставками. Несмотря на растущий интерес, отсутствует всеобъемлющий бенчмарк для оценки LLMs как в теоретических, так и в практических аспектах DFIR. Чтобы устранить этот пробел, мы представляем DFIR-Metric — бенчмарк, состоящий из трех компонентов: (1) Оценка знаний: набор из 700 вопросов с множественным выбором, проверенных экспертами и основанных на отраслевых сертификациях и официальной документации; (2) Реалистичные криминалистические задачи: 150 заданий в стиле Capture the Flag (CTF), проверяющих многошаговое рассуждение и корреляцию доказательств; и (3) Практический анализ: 500 случаев криминалистики дисков и памяти из программы NIST Computer Forensics Tool Testing (CFTT). Мы оценили 14 LLMs с использованием DFIR-Metric, проанализировав как их точность, так и согласованность результатов в нескольких испытаниях. Также мы вводим новый метрический показатель — Task Understanding Score (TUS), предназначенный для более эффективной оценки моделей в сценариях, где они демонстрируют близкую к нулю точность. Этот бенчмарк предлагает строгую и воспроизводимую основу для развития ИИ в области цифровой криминалистики. Все скрипты, артефакты и результаты доступны на сайте проекта: https://github.com/DFIR-Metric.
С быстрым развитием генеративных моделей универсальная генерация привлекает всё больше внимания как перспективный подход для объединения разнообразных задач в рамках одной системы, охватывающей различные модальности. Несмотря на этот прогресс, существующие открытые фреймворки часто остаются хрупкими и испытывают трудности с поддержкой сложных приложений в реальном мире из-за отсутствия структурированного планирования рабочих процессов и обратной связи на уровне выполнения. Чтобы устранить эти ограничения, мы представляем ComfyMind — совместную ИИ-систему, разработанную для обеспечения устойчивой и масштабируемой универсальной генерации, построенную на платформе ComfyUI. ComfyMind предлагает два ключевых нововведения: интерфейс семантического рабочего процесса (Semantic Workflow Interface, SWI), который абстрагирует низкоуровневые графы узлов в вызываемые функциональные модули, описанные на естественном языке, что позволяет осуществлять высокоуровневую композицию и снижает структурные ошибки; механизм планирования с использованием дерева поиска и локальной обратной связи, который моделирует генерацию как иерархический процесс принятия решений и позволяет адаптивно корректировать каждый этап. Вместе эти компоненты повышают стабильность и гибкость сложных генеративных рабочих процессов. Мы оцениваем ComfyMind на трёх публичных бенчмарках: ComfyBench, GenEval и Reason-Edit, которые охватывают задачи генерации, редактирования и логического рассуждения. Результаты показывают, что ComfyMind стабильно превосходит существующие открытые базовые решения и демонстрирует производительность, сопоставимую с GPT-Image-1. ComfyMind прокладывает перспективный путь для разработки открытых универсальных генеративных ИИ-систем. Страница проекта: https://github.com/LitaoGuo/ComfyMind.
Веб-агенты на основе Vision-Language Model (VLM) представляют собой значительный шаг в направлении автоматизации сложных задач за счет имитации человеческого взаимодействия с веб-сайтами. Однако их развертывание в неконтролируемых веб-средах влечет за собой серьезные уязвимости в области безопасности. Существующие исследования атак с инъекцией враждебного окружения часто основываются на нереалистичных предположениях, таких как прямое манипулирование HTML, знание намерений пользователя или доступ к параметрам модели агента, что ограничивает их практическую применимость. В данной статье мы предлагаем AdInject — новый метод атаки в реальных условиях, работающий в черном ящике, который использует механизмы доставки интернет-рекламы для внедрения вредоносного контента в окружение веб-агента. AdInject функционирует в рамках значительно более реалистичной модели угроз по сравнению с предыдущими работами, предполагая агента в черном ящике, статические ограничения на вредоносный контент и отсутствие конкретных знаний о намерениях пользователя. AdInject включает стратегии разработки вредоносного рекламного контента, направленного на введение агента в заблуждение с целью совершения кликов, а также технику оптимизации рекламного контента на основе VLM, которая выводит потенциальные намерения пользователя из контекста целевого веб-сайта и интегрирует эти намерения в рекламный контент, чтобы он казался более релевантным или критически важным для задачи агента, тем самым повышая эффективность атаки. Экспериментальные оценки демонстрируют эффективность AdInject: показатели успешности атаки превышают 60% в большинстве сценариев и приближаются к 100% в отдельных случаях. Это убедительно доказывает, что распространенные механизмы доставки рекламы представляют собой мощный и реалистичный вектор для атак с инъекцией окружения против веб-агентов. Данная работа выявляет критическую уязвимость в безопасности веб-агентов, возникающую из-за каналов манипуляции окружением в реальных условиях, и подчеркивает необходимость разработки надежных механизмов защиты от подобных угроз. Наш код доступен по адресу https://github.com/NicerWang/AdInject.
Современные модели генерации движения из текста опираются на кинематически-осознанное, локально-относительное представление движения, популяризированное HumanML3D, которое кодирует движение относительно таза и предыдущего кадра с встроенной избыточностью. Хотя такой подход упрощает обучение для ранних моделей генерации, он вводит критические ограничения для диффузионных моделей и затрудняет применимость к последующим задачам. В данной работе мы пересматриваем представление движения и предлагаем радикально упрощённую и давно забытую альтернативу для генерации движения из текста: абсолютные координаты суставов в глобальном пространстве. Благодаря систематическому анализу проектных решений мы показываем, что такая формулировка обеспечивает значительно более высокую точность движения, улучшенное соответствие тексту и сильную масштабируемость даже при использовании простой архитектуры Transformer и без вспомогательных кинематически-осознанных функций потерь. Более того, наша формулировка естественным образом поддерживает последующие задачи, такие как управление движением на основе текста и временное/пространственное редактирование, без дополнительной переработки под конкретные задачи и затратной генерации с использованием классификаторного управления на основе управляющих сигналов. Наконец, мы демонстрируем перспективную обобщаемость, позволяющую напрямую генерировать вершины SMPL-H меша в движении из текста, закладывая прочную основу для будущих исследований и приложений, связанных с движением.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют выдающиеся результаты в разнообразных задачах, однако сталкиваются с высокими затратами на время и память при выполнении выводов. Разреженность токенов помогает смягчить неэффективность их использования, а разреженность нейронов снижает объем высокоразмерных вычислений, предлагая перспективные решения для повышения эффективности. В последнее время эти две парадигмы разреженности развивались в основном параллельно, что способствовало распространению предположения об их независимом функционировании. Однако остается фундаментальный, но недостаточно изученный вопрос: действительно ли они работают изолированно, или существует более глубокая взаимосвязь, которая еще не раскрыта? В данной статье мы проводим первое всестороннее исследование этого вопроса. Введя и проанализировав механизм соответствия между ключевыми нейронами (Core Neurons) и ключевыми токенами (Core Tokens), мы обнаружили, что ключевые нейроны и токены для вывода взаимно влияют и усиливают друг друга. На основе этого понимания мы предлагаем CoreMatching, коадаптивную разреженную структуру для вывода, которая использует синергию между разреженностью токенов и нейронов для повышения эффективности вывода. Благодаря теоретическому анализу и оценкам эффективности мы демонстрируем, что предложенный метод превосходит современные базовые подходы в десяти задачах понимания изображений и на трех аппаратных устройствах. В частности, на NVIDIA Titan Xp он достиг 5-кратного сокращения FLOPs и 10-кратного общего ускорения. Код доступен по адресу https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
DeepSeek-R1 продемонстрировал мощные способности к рассуждению в текстовой области благодаря стабильному обучению с подкреплением (RL). В последнее время в мультимодальной области начали напрямую применять RL для генерации свободных рассуждений, подобных R1, в задачах визуального ответа на вопросы (VQA). Однако мультимодальные задачи имеют принципиально иную природу по сравнению с текстовыми, поскольку они в значительной степени зависят от понимания входного изображения для решения задачи. Таким образом, такие свободные рассуждения сталкиваются с двумя критическими ограничениями в задаче VQA: (1) Расширенные цепочки рассуждений отвлекают визуальное внимание от критически важных областей, что снижает точность ответов. (2) Непроверяемые промежуточные шаги увеличивают дисперсию градиента политики и накладные расходы на вычисления. Для решения этих проблем в данной статье мы представляем SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), который разбивает VQA на три проверяемых этапа, включая глобальное описание изображения, локализацию областей и предсказание ответа, каждый из которых предоставляет явные сигналы вознаграждения. Кроме того, мы также представляем VQA-Verify, набор данных объемом 12 тыс. примеров, аннотированных описаниями и ограничивающими рамками, соответствующими ответам, для облегчения обучения. Эксперименты демонстрируют последовательное улучшение производительности на семи тестовых наборах VQA, достигая улучшения точности до 15,7% по сравнению с базовым подходом, подобным R1. Наш анализ карты внимания подтверждает усиление фокуса на критически важных областях, что приводит к повышению точности. Наш код доступен по адресу https://github.com/justairr/SATORI-R1.
Архитектуры типа "смесь экспертов" (Mixture-of-Experts, MoE) позволяют масштабировать большие языковые модели (LLM) до огромного количества параметров без пропорционального увеличения вычислительных затрат. Однако значительные требования к памяти крупных моделей MoE затрудняют их развертывание в различных вычислительных средах, от облачных серверов до потребительских устройств. В данном исследовании сначала демонстрируется выраженная специализация активации экспертов в слоях MoE в зависимости от конкретных задач. На основе этого мы представляем PreMoe — новый фреймворк, который обеспечивает эффективное развертывание крупных моделей MoE в средах с ограниченной памятью. PreMoe включает два основных компонента: вероятностное сокращение экспертов (Probabilistic Expert Pruning, PEP) и адаптивное извлечение экспертов для задач (Task-Adaptive Expert Retrieval, TAER). PEP использует новый показатель — ожидаемый балл выбора, обусловленный задачей (Task-Conditioned Expected Selection Score, TCESS), который вычисляется на основе логитов маршрутизатора для количественной оценки важности экспертов для конкретных задач, что позволяет определить минимальный набор критически важных экспертов. TAER использует эти профили важности экспертов для эффективного вывода. Он предварительно вычисляет и сохраняет компактные шаблоны экспертов для различных задач. Когда поступает запрос пользователя, TAER быстро идентифицирует наиболее подходящий сохраненный шаблон задачи и восстанавливает модель, загружая только небольшое подмножество экспертов, критически важных для этой задачи. Такой подход значительно сокращает объем используемой памяти во всех сценариях развертывания. Модель DeepSeek-R1 671B сохраняет точность 97,2% на тесте MATH500 при сокращении до конфигурации 8/128 (сокращение экспертов на 50%) и достигает 72,0% при агрессивном сокращении до 8/32 (сокращение экспертов на 87,5%). Модель Pangu-Ultra-MoE 718B показывает точность 97,15% на MATH500 и 81,3% на AIME24 при сокращении до 8/128, а еще более агрессивное сокращение до 4/64 (390 ГБ памяти) сохраняет точность 96,95% на MATH500. Мы делаем наш код общедоступным по адресу https://github.com/JarvisPei/PreMoe.
В данной работе мы стремимся стимулировать способность к рассуждению у мультимодальных больших языковых моделей (MLLMs) с использованием обучения с подкреплением (RL) и разработать эффективный подход, который смягчает проблемы разреженного вознаграждения и исчезновения преимуществ в процессе RL. Для этого мы предлагаем Share-GRPO — новый подход RL, который решает эти проблемы за счет исследования и обмена разнообразными траекториями рассуждений в расширенном пространстве вопросов. В частности, Share-GRPO сначала расширяет пространство вопросов для заданного вопроса с помощью техник преобразования данных, а затем побуждает MLLM активно исследовать разнообразные траектории рассуждений в расширенном пространстве вопросов и делиться обнаруженными траекториями между расширенными вопросами в процессе RL. Кроме того, Share-GRPO также делится информацией о вознаграждении при вычислении преимуществ, оценивая преимущества решений иерархически как между вариантами вопросов, так и внутри них, что позволяет более точно оценивать относительные преимущества и повышать стабильность обучения политики. Обширные оценки на шести широко используемых бенчмарках для рассуждений демонстрируют превосходную производительность нашего метода. Код будет доступен по адресу https://github.com/HJYao00/R1-ShareVL.
Понимание источников неопределенности модели в отношении ее прогнозов имеет решающее значение для эффективного взаимодействия человека и ИИ. Предыдущие работы предлагали использовать числовую неопределенность или оговорки ("Я не уверен, но..."), которые не объясняют неопределенность, возникающую из-за противоречивых данных, оставляя пользователей неспособными разрешить разногласия или полагаться на выводы. Мы представляем CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations) — первую структуру для генерации объяснений неопределенности модели на естественном языке, которая (i) выявляет отношения между фрагментами текста, раскрывающие конфликты или согласованность между утверждениями и доказательствами, которые вызывают неопределенность прогнозов модели, и (ii) генерирует объяснения с помощью промптов и управления вниманием, вербализирующих эти ключевые взаимодействия. На трех языковых моделях и двух наборах данных для проверки фактов мы показываем, что CLUE создает объяснения, которые более точно отражают неопределенность модели и более согласованы с решениями по проверке фактов, чем запросы на объяснения неопределенности без учета взаимодействия фрагментов. Человеческие оценщики считают наши объяснения более полезными, информативными, менее избыточными и более логически согласованными с входными данными, чем этот базовый подход. CLUE не требует тонкой настройки или изменений архитектуры, что делает его готовым к использованию для любой "белой" языковой модели. Явно связывая неопределенность с конфликтами доказательств, она предлагает практическую поддержку для проверки фактов и легко обобщается на другие задачи, требующие рассуждений над сложной информацией.
Алгоритмы динамического программирования (ДП) для задач комбинаторной оптимизации работают с операциями максимизации, минимизации и классического сложения в своих рекурсивных алгоритмах. Соответствующие функции значений соответствуют выпуклым многогранникам в полукольце max-plus. Однако существующие модели нейронного алгоритмического рассуждения опираются на внимание, основанное на скалярном произведении с нормализацией через softmax, где гладкое экспоненциальное взвешивание размывает эти четкие многогранные структуры и приводит к их коллапсу при оценке на данных, выходящих за пределы распределения (OOD). Мы представляем тропическое внимание — новую функцию внимания, которая работает непосредственно в полукольце max-plus тропической геометрии. Мы доказываем, что тропическое внимание может аппроксимировать тропические схемы алгоритмов ДП-типа для комбинаторных задач. Затем мы предлагаем, что использование тропических трансформеров улучшает эмпирическую производительность на OOD данных как в обобщении по длине, так и в обобщении по значениям, превосходя базовые подходы с softmax, оставаясь устойчивыми к атакам со стороны противника. Мы также вводим обобщение на атаки со стороны противника как третью ось для бенчмаркинга нейронного алгоритмического рассуждения. Наши результаты демонстрируют, что тропическое внимание восстанавливает четкое, масштабно-инвариантное рассуждение, отсутствующее в softmax.
Крупные языковые модели (LLM) всё чаще признаются мощным инструментом для научных открытий, особенно в области молекулярных наук. Основным требованием для этих моделей является способность точно понимать молекулярные структуры, которые обычно кодируются в представлении SMILES. Однако современные LLM испытывают трудности с интерпретацией SMILES, даже не справляясь с базовыми задачами, такими как подсчёт молекулярных колец. Чтобы устранить это ограничение, мы представляем CLEANMOL — новый фреймворк, который формулирует парсинг SMILES в виде набора чистых и детерминированных задач, явно разработанных для улучшения понимания молекулярных структур на уровне графов. Эти задачи варьируются от сопоставления подграфов до глобального сопоставления графов, обеспечивая структурированное обучение, согласованное с молекулярными структурными свойствами. Мы создаём молекулярный предобучающий набор данных с адаптивной оценкой сложности и предобучаем открытые LLM на этих задачах. Наши результаты показывают, что CLEANMOL не только улучшает понимание структур, но также демонстрирует наилучшие результаты или конкурирует с базовыми моделями на бенчмарке Mol-Instructions.
Генерация с усилением поиска повышает точность больших языковых моделей (LLM) за счет добавления фрагментов, извлеченных из внешнего корпуса, в запрос LLM. В данной статье исследуется, как позиционное смещение — склонность LLM по-разному учитывать информацию в зависимости от ее положения в запросе — влияет не только на способность модели эффективно использовать релевантные фрагменты, но и на ее уязвимость к отвлекающим фрагментам. В ходе масштабных экспериментов на трех бенчмарках мы показываем, что современные системы поиска, пытаясь извлечь релевантные фрагменты, систематически выводят на первые позиции высокоотвлекающие фрагменты, причем более чем в 60% запросов хотя бы один такой фрагмент оказывается среди 10 наиболее релевантных. В результате влияние позиционного смещения LLM, которое в контролируемых условиях часто описывается как весьма значительное в работах других авторов, в реальных сценариях оказывается минимальным, поскольку как релевантные, так и отвлекающие фрагменты в равной степени подвергаются "штрафу". Более того, наши результаты показывают, что сложные стратегии, пытающиеся переупорядочить фрагменты с учетом предпочтений LLM, не превосходят случайного перемешивания.
Трансформеры для обработки изображений (Vision Transformers, ViTs) стали доминирующей архитектурой для задач визуальной обработки, демонстрируя превосходную масштабируемость с увеличением объема обучающих данных и размера модели. Однако в последних исследованиях было выявлено появление артефактных токенов в ViTs, которые не соответствуют локальной семантике. Эти аномальные токены ухудшают производительность ViTs в задачах, требующих точной локализации или структурной согласованности. Эффективным способом устранения этой проблемы является добавление регистровых токенов в ViTs, которые неявно "поглощают" артефактные термины в процессе обучения. Учитывая доступность различных крупномасштабных предобученных ViTs, в данной работе мы стремимся оснастить их такими регистровыми токенами без необходимости их повторного обучения с нуля, что нецелесообразно из-за их размера. В частности, мы предлагаем метод Post Hoc Registers (PH-Reg), эффективный метод самодистилляции, который интегрирует регистры в существующий ViT без необходимости дополнительных размеченных данных и полного переобучения. PH-Reg инициализирует как учителя, так и ученика из одного и того же предобученного ViT. Учитель остается замороженным и неизменным, в то время как ученик дополняется случайно инициализированными регистровыми токенами. Применяя аугментацию на этапе тестирования к входам учителя, мы генерируем очищенные плотные эмбеддинги, свободные от артефактов, которые затем используются для оптимизации только небольшого подмножества разблокированных весов ученика. Мы показываем, что наш подход может эффективно сократить количество артефактных токенов, улучшая сегментацию и предсказание глубины ученика ViT в условиях zero-shot и линейного зондирования.
Языковые модели для белков (PLMs) стали мощным инструментом для выявления сложных закономерностей в белковых последовательностях. Однако способность PLMs полностью улавливать информацию о белковых последовательностях может быть ограничена из-за фокусировки на единичных задачах предварительного обучения. Хотя добавление дополнительных модальностей данных или контролируемых целей может улучшить производительность PLMs, предварительное обучение часто остается сосредоточенным на восстановлении зашумленных последовательностей. Чтобы расширить возможности PLMs, наше исследование изучило стратегию многозадачного предварительного обучения. Мы разработали Ankh3 — модель, оптимизированную одновременно для двух задач: маскированного языкового моделирования с различными вероятностями маскирования и завершения белковых последовательностей, использующую только белковые последовательности в качестве входных данных. Это многозадачное предварительное обучение показало, что PLMs могут извлекать более богатые и обобщаемые представления исключительно из белковых последовательностей. Результаты продемонстрировали улучшение производительности в таких задачах, как предсказание вторичной структуры, флуоресценция, фитнес GB1 и предсказание контактов. Интеграция нескольких задач позволила модели получить более полное понимание свойств белков, что привело к более надежным и точным предсказаниям.
Взаимодействия белков (PPIs) играют ключевую роль в многочисленных клеточных процессах, и их изучение имеет важное значение для понимания механизмов заболеваний и разработки лекарств. Хотя языковые модели для белков (PLMs) продемонстрировали впечатляющие успехи в предсказании структуры и функции белков, их применение для прогнозирования аффинности связывания PPIs на основе последовательностей остается недостаточно изученным. Этот пробел часто связывают с нехваткой высококачественных, тщательно обработанных наборов данных и использованием простых стратегий для объединения представлений белков. В данной работе мы устраняем эти ограничения. Во-первых, мы представляем тщательно обработанную версию набора данных PPB-Affinity, содержащего 8 207 уникальных записей взаимодействий белков, устраняя несоответствия в аннотациях и дублирующиеся записи для взаимодействий с участием нескольких цепей. Этот набор данных включает строгий порог идентичности последовательностей ≤30%, что обеспечивает надежное разделение на обучающие, валидационные и тестовые наборы, минимизируя утечку данных. Во-вторых, мы предлагаем и систематически оцениваем четыре архитектуры для адаптации PLMs к прогнозированию аффинности связывания PPIs: конкатенация эмбеддингов (EC), конкатенация последовательностей (SC), иерархическое пулирование (HP) и добавление пулированного внимания (PAD). Эти архитектуры были протестированы с использованием двух методов обучения: полного тонкого настройки и облегченного подхода с использованием ConvBERT-головок на замороженных признаках PLM. Наши всесторонние эксперименты с несколькими ведущими PLMs (ProtT5, ESM2, Ankh, Ankh2 и ESM3) показали, что архитектуры HP и PAD стабильно превосходят традиционные методы конкатенации, достигая увеличения коэффициента корреляции Спирмена до 12%. Эти результаты подчеркивают необходимость сложных архитектурных решений для полного раскрытия потенциала PLMs в прогнозировании аффинности связывания PPIs.
Дифференциальная диагностика нейродегенеративных деменций представляет собой сложную клиническую задачу, главным образом из-за перекрытия симптоматики и сходства паттернов, наблюдаемых в структурной нейровизуализации. Для повышения эффективности и точности диагностики были предложены методы на основе глубокого обучения, такие как сверточные нейронные сети и трансформеры для изображений, для автоматической классификации МРТ головного мозга. Однако, несмотря на их высокую прогностическую производительность, эти модели находят ограниченное клиническое применение из-за непрозрачности процесса принятия решений. В данной работе мы предлагаем фреймворк, который объединяет два ключевых компонента для повышения прозрачности диагностики. Во-первых, мы представляем модульный конвейер для преобразования 3D T1-взвешенных МРТ головного мозга в текстовые радиологические отчеты. Во-вторых, мы исследуем потенциал современных крупных языковых моделей (LLM) для помощи клиницистам в дифференциальной диагностике между подтипами фронтотемпоральной деменции, болезнью Альцгеймера и нормальным старением на основе сгенерированных отчетов. Чтобы сократить разрыв между прогностической точностью и объяснимостью, мы используем обучение с подкреплением для стимулирования диагностического рассуждения в LLM. Без необходимости в контролируемых траекториях рассуждений или дистилляции из более крупных моделей наш подход позволяет формировать структурированные диагностические обоснования, основанные на данных нейровизуализации. В отличие от постфактумных методов объяснимости, которые ретроспективно обосновывают решения модели, наш фреймворк генерирует диагностические обоснования как часть процесса вывода, создавая причинно обоснованные объяснения, которые информируют и направляют процесс принятия решений модели. Таким образом, наш фреймворк демонстрирует диагностическую производительность, сопоставимую с существующими методами глубокого обучения, при этом предоставляя обоснования, поддерживающие его диагностические выводы.