Ежедневно отобранные исследовательские статьи по ИИ с переводами
Представляем Hala — семейство моделей для инструкций и перевода, ориентированных на арабский язык, созданных с использованием нашего конвейера перевода и настройки. Сначала мы сжимаем мощную модель-учитель AR↔EN до формата FP8 (что дает примерно двукратное увеличение пропускной способности без потери качества) и используем её для создания высококачественного двуязычного обучающего материала. Затем легковесная языковая модель LFM2-1.2B дообучается на этих данных и применяется для перевода высококачественных наборов инструкций с английского на арабский, создавая корпус объемом в миллионы примеров, адаптированный для выполнения инструкций. Мы обучаем модели Hala с 350M, 700M, 1.2B и 9B параметрами и применяем slerp-слияние для баланса специализации на арабском языке с сильными сторонами базовых моделей. На арабско-ориентированных бенчмарках Hala достигает наилучших результатов как в категории "nano" (≤2B), так и в категории "small" (7-9B), превосходя свои базовые модели. Мы публикуем модели, данные, методы оценки и рецепты для ускорения исследований в области обработки естественного языка для арабского языка.
Мы представляем SAIL-VL2 — открытую модель-основу для обработки визуально-языковых данных (LVM), предназначенную для всестороннего мультимодального понимания и рассуждений. Как преемник SAIL-VL, SAIL-VL2 демонстрирует передовые результаты на масштабах 2B и 8B параметров в различных бенчмарках для изображений и видео, показывая мощные возможности — от детального восприятия до сложных рассуждений. Три ключевых инновации обеспечивают её эффективность. Во-первых, масштабируемый конвейер подготовки данных с системами оценки и фильтрации повышает качество и разнообразие данных для задач генерации подписей, OCR, вопросно-ответных систем и видео, улучшая эффективность обучения. Во-вторых, прогрессивная структура обучения начинается с мощного предобученного визуального кодировщика (SAIL-ViT), переходит к мультимодальному предобучению и завершается гибридной парадигмой SFT-RL с интегрированным мышлением, что систематически усиливает возможности модели. В-третьих, архитектурные улучшения выходят за рамки плотных LLM, включая эффективные разреженные модели Mixture-of-Experts (MoE). Благодаря этим достижениям, SAIL-VL2 демонстрирует конкурентоспособные результаты на 106 наборах данных и устанавливает новые стандарты на сложных бенчмарках для рассуждений, таких как MMMU и MathVista. Кроме того, на лидерборде OpenCompass SAIL-VL2-2B занимает первое место среди официально выпущенных открытых моделей с масштабом до 4B параметров, выступая эффективной и расширяемой основой для сообщества разработчиков мультимодальных технологий.
Панорамное зрение, использующее 360-градусный обзор для понимания окружающей среды, становится всё более важным в таких областях, как робототехника, промышленный контроль и мониторинг окружающей среды. По сравнению с традиционным точечным зрением, панорамное зрение обеспечивает целостное восприятие окружающей среды, значительно повышая полноту восприятия сцены и надёжность принятия решений. Однако фундаментальные исследования в этой области исторически отставали от традиционного точечного зрения. В данном докладе представлена новая тенденция в эпоху воплощённого ИИ: стремительное развитие панорамного зрения, обусловленное растущим промышленным спросом и академическим интересом. Мы выделяем недавние прорывы в области панорамной генерации, панорамного восприятия, панорамного понимания и связанных с ними наборов данных. Опираясь на идеи как из академической, так и из промышленной сфер, мы предлагаем идеальную архитектуру панорамной системы в эпоху воплощённого ИИ, PANORAMA, которая состоит из четырёх ключевых подсистем. Кроме того, мы представляем глубокие мнения, связанные с новыми тенденциями и междисциплинарным влиянием на стыке панорамного зрения и воплощённого ИИ, а также с будущей дорожной картой и открытыми вызовами. Этот обзор объединяет последние достижения и намечает вызовы и возможности для будущих исследований в создании надёжных универсальных панорамных систем ИИ в эпоху воплощённого ИИ.
Экзамены являются фундаментальным испытанием экспертного уровня интеллекта и требуют интегрированного понимания, рассуждения и генерации. Существующие бенчмарки в стиле экзаменов в основном сосредоточены на задачах понимания и рассуждения, а современные бенчмарки генерации акцентируют внимание на иллюстрации знаний о мире и визуальных концепций, пренебрегая оценкой строгих экзаменов по рисованию. Мы представляем GenExam — первый бенчмарк для междисциплинарных текстово-изобразительных экзаменов, включающий 1000 образцов по 10 предметам с экзаменационными заданиями, организованными в рамках четырехуровневой таксономии. Каждая задача снабжена эталонными изображениями и детализированными критериями оценки для точного измерения семантической корректности и визуальной правдоподобности. Эксперименты показывают, что даже передовые модели, такие как GPT-Image-1 и Gemini-2.5-Flash-Image, достигают менее 15% строгих баллов, а большинство моделей показывают почти 0%, что подчеркивает значительную сложность нашего бенчмарка. Формулируя генерацию изображений как экзамен, GenExam предлагает строгую оценку способности моделей интегрировать знания, рассуждение и генерацию, предоставляя важные инсайты на пути к созданию общего искусственного интеллекта (AGI).
Хотя языковые модели для кода (Code Language Models, CLMs) продемонстрировали превосходную производительность в задачах программной инженерии, таких как генерация и суммаризация кода, недавние эмпирические исследования выявили критическую уязвимость в области конфиденциальности: эти модели демонстрируют непреднамеренное запоминание чувствительных данных из обучающего набора, что позволяет дословно воспроизводить конфиденциальную информацию при специфических запросах. Для решения этой проблемы были предложены различные подходы, включая дедупликацию обучающих данных и усиление дифференциальной приватности. Однако эти методы требуют полного переобучения уже развернутых CLMs, что влечет за собой значительные вычислительные затраты. В данной статье мы стремимся ответить на следующий исследовательский вопрос: Можно ли эффективно и экономно удалить чувствительную информацию, запомненную CLMs? Мы проводим пионерское исследование по удалению чувствительных данных из CLMs с помощью машинного "забывания" (machine unlearning) — метода постобработки, который удаляет конкретную информацию из обученных моделей без необходимости полного переобучения. В частности, мы сначала количественно оцениваем риски запоминания чувствительных данных в обучающих наборах CLMs и формируем набор из 50 000 высокорисковых запомненных образцов в качестве целей для "забывания". Мы изучаем два широко используемых подхода на основе градиентного восхождения: базовый метод и метод с ограничениями, а также представляем CodeEraser — усовершенствованный вариант, который избирательно "забывает" чувствительные запомненные фрагменты кода, сохраняя структурную целостность и функциональную корректность окружающего кода. Масштабные эксперименты на трех семействах CLMs, а именно CodeParrot, CodeGen-Mono и Qwen2.5-Coder, подтверждают эффективность и экономичность CodeEraser в удалении целевых чувствительных данных при сохранении полезности модели.
Последние достижения в области агентов на основе больших языковых моделей (LLM) продемонстрировали впечатляющие возможности в различных областях, что подтверждается глубокими исследовательскими системами, показывающими превосходную производительность в сложных задачах поиска и синтеза информации. Хотя универсальные глубокие исследовательские агенты демонстрируют впечатляющие результаты, они сталкиваются с существенными трудностями в медицинской области, что подтверждается ограниченной точностью ведущих проприетарных систем на сложных медицинских тестах. Основные ограничения заключаются в следующем: (1) модель не обладает достаточными плотными медицинскими знаниями для клинического рассуждения, и (2) фреймворк ограничен отсутствием специализированных инструментов поиска, адаптированных для медицинских контекстов. Мы представляем медицинского глубокого исследовательского агента, который решает эти проблемы с помощью двух ключевых инноваций. Во-первых, мы разрабатываем новый фреймворк синтеза данных с использованием медицинских графов знаний, извлекая самые длинные цепочки из подграфов вокруг редких медицинских сущностей для генерации сложных многошаговых вопросно-ответных пар. Во-вторых, мы интегрируем специализированный частный медицинский поисковый механизм вместе с универсальными инструментами, что позволяет точно синтезировать медицинскую информацию. Наш подход генерирует более 2100 разнообразных траекторий в 12 медицинских специальностях, каждая из которых в среднем включает 4.2 взаимодействия с инструментами. Благодаря двухэтапной парадигме обучения, сочетающей контролируемую тонкую настройку и онлайн-обучение с подкреплением с составными наградами, наша модель MedResearcher-R1-32B демонстрирует исключительную производительность, устанавливая новые рекорды на медицинских тестах, сохраняя при этом конкурентоспособные результаты на общих задачах глубокого исследования. Наша работа показывает, что стратегические доменно-специфические инновации в архитектуре, дизайне инструментов и построении обучающих данных позволяют меньшим открытым моделям превосходить значительно более крупные проприетарные системы в специализированных областях.
Крупные языковые модели (LLMs) достигли значительных успехов в математических рассуждениях, но по-прежнему испытывают трудности с задачами, требующими высокой точности, такими как численные вычисления и формальные символьные преобразования. Интеграция внешних инструментов стала перспективным подходом для преодоления этого разрыва. Несмотря на недавние достижения, существующие методы сталкиваются с тремя ключевыми проблемами: создание данных для рассуждений с использованием инструментов, тонкая оптимизация и улучшение вывода. Чтобы преодолеть эти ограничения, мы предлагаем THOR (Tool-Integrated Hierarchical Optimization via RL). Во-первых, мы представляем TIRGen — многоагентный конвейер на основе актор-критик для создания высококачественных наборов данных с путями рассуждений, интегрирующими инструменты, которые согласуются с политикой и хорошо обобщаются на различные модели. Во-вторых, для выполнения тонкой иерархической оптимизации мы вводим стратегию обучения с подкреплением (RL), которая совместно оптимизирует решение задач на уровне траектории и генерацию кода на уровне шага. Это мотивировано нашим ключевым наблюдением: успешность промежуточного вызова инструмента является сильным предиктором правильности конечного ответа. Наконец, THOR включает механизм самокоррекции, который использует мгновенную обратную связь от инструментов для динамического исправления ошибочных путей рассуждений во время вывода. Наш подход демонстрирует сильную обобщаемость на различные модели, эффективно работая как в моделях с рассуждениями, так и без них. Он также достигает наилучших результатов для моделей сопоставимого масштаба на нескольких математических бенчмарках, одновременно обеспечивая стабильные улучшения на бенчмарках для кода. Наш код будет общедоступен по адресу https://github.com/JingMog/THOR.
Мы представляем Wan-Animate, унифицированную платформу для анимации и замены персонажей. Получив изображение персонажа и эталонное видео, Wan-Animate может анимировать персонажа, точно воспроизводя его выражения и движения из видео, чтобы создавать высококачественные видеоролики с персонажами. Кроме того, платформа может интегрировать анимированного персонажа в эталонное видео, заменяя оригинального персонажа и воспроизводя освещение и цветовую гамму сцены для достижения бесшовной интеграции в окружение. Wan-Animate основана на модели Wan. Для адаптации к задачам анимации персонажей мы используем модифицированную входную парадигму, которая разделяет эталонные условия и области для генерации. Этот подход объединяет множество задач в единое символическое представление. Мы применяем пространственно выровненные сигналы скелета для воспроизведения движений тела и неявные черты лица, извлеченные из исходных изображений, для воссоздания выражений, что позволяет создавать видеоролики с высокой управляемостью и выразительностью. Кроме того, для улучшения интеграции в окружение при замене персонажа мы разработали вспомогательный модуль Relighting LoRA. Этот модуль сохраняет согласованность внешнего вида персонажа, применяя соответствующее освещение и цветовую гамму окружения. Экспериментальные результаты показывают, что Wan-Animate достигает передовых показателей производительности. Мы намерены открыть исходный код модели и её веса для общедоступного использования.
В данной статье представлен обзор конкурса MARS2 2025 по мультимодальным рассуждениям. Мы стремимся объединить различные подходы в области мультимодального машинного обучения и крупных языковых моделей (LLM) с помощью масштабного бенчмарка. Мы надеемся, что это позволит исследователям лучше отслеживать передовые достижения в этой динамично развивающейся области. В то же время растущее количество тестовых сред способствовало эволюции универсальных крупных языковых моделей. Поэтому в этом году MARS2 сосредоточен на реальных и специализированных сценариях, чтобы расширить области применения мультимодальных рассуждений в MLLM. Наша организационная команда выпустила два специализированных набора данных — Lens и AdsQA — в качестве тестовых наборов, которые поддерживают общие рассуждения в 12 повседневных сценариях и предметно-ориентированные рассуждения в рекламных видео соответственно. Мы оценили более 40 базовых моделей, включая как универсальные MLLM, так и специализированные модели, и открыли три конкурсных направления: визуальное закрепление в реальных сценариях (VG-RS), визуальный вопросно-ответный анализ с пространственной осведомленностью (VQA-SA) и визуальные рассуждения в креативных рекламных видео (VR-Ads). В итоге 76 команд из известных академических и промышленных учреждений зарегистрировались, и более 40 действительных решений (из 1200+) были включены в наши рейтинговые списки. Наши наборы данных, наборы кода (более 40 базовых моделей и более 15 методов участников) и рейтинги доступны на сайте мастерской MARS2 и на нашей странице GitHub https://github.com/mars2workshop/, где мы будем постоянно публиковать обновления и анонсы предстоящих мероприятий.
Крупные языковые модели (LLM) часто испытывают трудности с сохранением контекста, выдавая противоречивые ответы на вопросы, основанные на предоставленной информации. Существующие подходы либо полагаются на дорогостоящую контролируемую тонкую настройку для генерации доказательств после ответа, либо обучают модели выполнять веб-поиск, не обязательно улучшая использование заданного контекста. Мы предлагаем CARE — новую нативную структуру для рассуждений, усиленных поиском, которая учит LLM явно интегрировать доказательства из контекста в процесс рассуждений, используя собственные возможности модели для поиска. Наш метод требует ограниченного количества размеченных данных о доказательствах, при этом значительно повышая как точность поиска, так и качество генерации ответов за счет стратегически извлеченных токенов контекста в цепочке рассуждений. Многочисленные эксперименты на множестве реальных и контрфактических бенчмарков для вопросно-ответных задач демонстрируют, что наш подход существенно превосходит контролируемую тонкую настройку, традиционные методы генерации, усиленные поиском, и внешние решения для поиска. Эта работа представляет собой фундаментальный шаг вперед в повышении точности, надежности и эффективности LLM для задач, требующих глубоких знаний.
Мы представляем LLM-Interleaved (LLM-I), гибкую и динамичную структуру, которая переосмысливает чередующуюся генерацию изображений и текста как задачу использования инструментов. LLM-I разработан для преодоления ограничений современных унифицированных моделей, которые застряли в "одноинструментной" ловушке, ограничиваясь синтетическими изображениями и испытывая трудности с задачами, требующими фактической обоснованности или программной точности. Наша структура позволяет центральному агенту LLM или MLLM интеллектуально управлять разнообразным набором специализированных визуальных инструментов, включая онлайн-поиск изображений, генерацию на основе диффузии, выполнение кода и редактирование изображений. Агент обучается выбирать и применять эти инструменты с помощью фреймворка обучения с подкреплением (RL), который включает гибридную систему вознаграждений, сочетающую логику на основе правил с оценками от LLM и MLLM-оценщиков. Обучаясь на новом разнообразном наборе данных с использованием четырех различных моделей, LLM-I демонстрирует передовые результаты, значительно превосходя существующие методы на четырех бенчмарках. Мы также представляем новую стратегию масштабирования на этапе тестирования, которая обеспечивает дополнительные улучшения производительности. Страница проекта: https://github.com/ByteDance-BandAI/LLM-I.
Генеративное машинное обучение открывает новые возможности для более глубокого понимания сложной динамики земной системы. Современные методы на основе диффузии устраняют спектральные смещения и улучшают калибровку ансамблей в прогнозировании погоды по сравнению с детерминированными методами, однако до сих пор их масштабирование на высоких разрешениях оставалось проблематичным. Мы представляем AERIS — трансформер на основе Swin-диффузии с 1,3 до 80 миллиардов параметров на уровне пикселей, который решает эту проблему, а также SWiPe — универсальную технику, сочетающую параллелизм окон с последовательным и конвейерным параллелизмом для распределения трансформеров на основе окон без дополнительных затрат на коммуникацию или увеличения глобального размера пакета. На системе Aurora (10 080 узлов) AERIS поддерживает 10,21 эксафлопс (смешанная точность) и пиковую производительность 11,21 эксафлопс с размером патча 1×1 на наборе данных ERA5 с разрешением 0,25°, достигая 95,5% эффективности слабого масштабирования и 81,6% эффективности сильного масштабирования. AERIS превосходит IFS ENS и остается стабильным на сезонных масштабах до 90 дней, демонстрируя потенциал моделей диффузии с миллиардами параметров для прогнозирования погоды и климата.
Современные модели генерации изображений обычно захватывают распределение изображений в предварительно построенном латентном пространстве, полагаясь на замороженный токенизатор изображений. Однако существует значительное расхождение между распределениями реконструкции и генерации, где текущие токенизаторы уделяют внимание только задаче реконструкции, которая происходит до обучения генерации, не учитывая ошибки генерации во время сэмплирования. В данной работе мы всесторонне анализируем причину этого расхождения в дискретном латентном пространстве и на основе этого предлагаем новую схему обучения токенизатора, включающую основное обучение и пост-обучение, сфокусированные на улучшении построения латентного пространства и декодирования соответственно. В ходе основного обучения предлагается стратегия латентного возмущения для моделирования шумов сэмплирования, то есть неожиданных токенов, генерируемых в процессе генеративного вывода. В частности, мы предлагаем схему обучения токенизатора по принципу "plug-and-play", которая значительно повышает устойчивость токенизатора, тем самым улучшая качество генерации и скорость сходимости, а также новый метрический показатель для оценки токенизатора, pFID, который успешно связывает производительность токенизатора с качеством генерации. В ходе пост-обучения мы дополнительно оптимизируем декодер токенизатора относительно хорошо обученной генеративной модели, чтобы уменьшить разницу в распределении между сгенерированными и реконструированными токенами. С генератором объемом около 400M параметров, дискретный токенизатор, обученный с использованием нашего основного обучения, достигает заметного показателя 1.60 gFID и дополнительно получает 1.36 gFID с дополнительным пост-обучением. Дополнительные эксперименты проводятся для широкой проверки эффективности нашей стратегии пост-обучения на готовых дискретных и непрерывных токенизаторах, в сочетании с авторегрессивными и диффузионными генераторами.
Мы представляем SteeringControl — эталонный тест для оценки методов управления представлениями по ключевым задачам согласования: предвзятость, генерация вредоносного контента и галлюцинации, а также их влияния на вторичные поведенческие аспекты, такие как угодничество и здравый моральный смысл. В то время как предыдущие работы по согласованию часто акцентируют внимание на правдивости или способности к рассуждению для демонстрации побочных эффектов управления представлениями, мы обнаруживаем, что существует множество неисследованных компромиссов, которые еще не изучены систематически. Мы собираем набор данных, включающий первичные и вторичные поведенческие аспекты, связанные с безопасностью, для оценки эффективности управления и переплетения поведений, сосредоточившись на пяти популярных методах управления. Для реализации этого мы разрабатываем модульную структуру управления, основанную на уникальных компонентах, которые служат строительными блоками для многих существующих методов. Наши результаты на моделях Qwen-2.5-7B и Llama-3.1-8B показывают, что эффективность управления сильно зависит от конкретной комбинации метода управления, модели и целевого поведения, а также что неподходящие комбинации этих трех факторов могут приводить к серьезному переплетению концепций. Мы публикуем наш код по адресу: https://github.com/wang-research-lab/SteeringControl.git.
Вариационные квантовые схемы (VQCs) играют ключевую роль в квантовом машинном обучении, в то время как недавние достижения в сетях Колмогорова-Арнольда (KANs) подчеркивают мощь обучаемых функций активации. Мы объединяем эти направления, вводя квантовые вариационные функции активации (QVAFs), реализуемые через одно-кубитные схемы повторной загрузки данных, называемые DatA Re-Uploading ActivatioNs (DARUANs). Мы показываем, что DARUAN с обучаемыми весами в предварительной обработке данных обладает экспоненциально растущим частотным спектром при повторении данных, что позволяет экспоненциально сократить размер параметров по сравнению с активациями на основе Фурье без потери выразительности. Встраивание DARUAN в KANs приводит к квантово-вдохновленным KANs (QKANs), которые сохраняют интерпретируемость KANs, одновременно улучшая их параметрическую эффективность, выразительность и обобщаемость. Мы также вводим две новые методики для повышения масштабируемости, реализуемости и вычислительной эффективности, такие как расширение слоев и гибридные QKANs (HQKANs) в качестве замены многослойных перцептронов (MLPs) в прямых сетях для крупномасштабных моделей. Мы предоставляем теоретический анализ и обширные эксперименты по регрессии функций, классификации изображений и авторегрессивному генеративному моделированию языка, демонстрируя эффективность и масштабируемость QKANs. DARUANs и QKANs предлагают перспективное направление для развития квантового машинного обучения как на шумных квантовых устройствах промежуточного масштаба (NISQ), так и на классических квантовых симуляторах.
Мы предлагаем конвейер для извлечения и реконструкции динамических 3D-моделей дыма из одного видеоролика, снятого в естественных условиях, с последующей интеграцией интерактивного моделирования для проектирования и редактирования дыма. Последние достижения в области 3D-визуализации значительно улучшили реконструкцию и рендеринг динамики жидкостей, обеспечивая реалистичный и временно согласованный синтез изображений. Однако текущие методы реконструкции жидкостей в значительной степени зависят от тщательно контролируемых лабораторных условий, тогда как видеоролики, снятые в реальных условиях, остаются малоизученными. Мы выделяем три ключевые проблемы реконструкции дыма в видеороликах из реального мира и разрабатываем целевые методы, включая извлечение дыма с удалением фона, инициализацию частиц дыма и позиций камеры, а также вывод многовидовых видеороликов. Наш метод не только превосходит предыдущие подходы к реконструкции и генерации, обеспечивая высококачественную реконструкцию дыма (+2.22 среднего PSNR на видеороликах из реального мира), но также позволяет выполнять разнообразное и реалистичное редактирование динамики жидкостей путем моделирования наших 3D-моделей дыма. Мы предоставляем наши модели, данные и 4D-модели дыма по адресу [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke).
По мере того как крупные языковые модели (LLM) становятся неотъемлемой частью многозадачных систем, возникают новые риски для конфиденциальности, выходящие за рамки запоминания, прямого вывода или одношаговых оценок. В частности, казалось бы, безобидные ответы, объединенные в рамках взаимодействий, могут в совокупности позволить злоумышленникам восстановить конфиденциальную информацию — явление, которое мы называем композиционной утечкой конфиденциальности. Мы представляем первое систематическое исследование таких композиционных утечек и возможных методов их устранения в многозадачных системах на основе LLM. Сначала мы разрабатываем модель, которая описывает, как вспомогательные знания и взаимодействия агентов совместно усиливают риски для конфиденциальности, даже если каждый ответ по отдельности безвреден. Затем, чтобы смягчить эти риски, мы предлагаем и оцениваем две стратегии защиты: (1) защиту на основе теории сознания (Theory-of-Mind, ToM), где агенты-защитники определяют намерения вопрошающего, предвидя, как их ответы могут быть использованы злоумышленниками, и (2) защиту на основе совместного консенсуса (Collaborative Consensus Defense, CoDef), где агенты-ответчики сотрудничают с коллегами, которые голосуют на основе общего агрегированного состояния, чтобы ограничить распространение конфиденциальной информации. Важно, что наша оценка балансирует между композициями, раскрывающими конфиденциальную информацию, и композициями, приводящими к безвредным выводам. Наши эксперименты количественно оценивают, как эти стратегии защиты различаются в балансировке между конфиденциальностью и полезностью. Мы обнаруживаем, что, хотя цепочка рассуждений сама по себе обеспечивает ограниченную защиту от утечек (~39% блокировки конфиденциальных запросов), наша защита ToM значительно улучшает блокировку конфиденциальных запросов (до 97%), но может снизить успешность выполнения безвредных задач. CoDem достигает наилучшего баланса, обеспечивая наивысший сбалансированный результат (79,8%), что подчеркивает преимущество сочетания явного рассуждения с сотрудничеством защитников. В совокупности наши результаты выявляют новый класс рисков в совместных развертываниях LLM и предоставляют практические рекомендации для разработки мер защиты от композиционных, контекстно-зависимых утечек конфиденциальности.
Персонализированные финансовые рекомендации требуют учета целей пользователя, ограничений, толерантности к риску и юрисдикции. Предыдущие работы с использованием больших языковых моделей (LLM) были сосредоточены на системах поддержки инвесторов и финансовых планировщиков. Одновременно многочисленные недавние исследования изучают более широкие задачи личных финансов, включая бюджетирование, управление долгами, пенсионное и наследственное планирование, с использованием агентных конвейеров, которые требуют высоких затрат на обслуживание, принося менее 25% ожидаемой финансовой отдачи. В данном исследовании мы представляем новый и воспроизводимый фреймворк, который интегрирует соответствующий финансовый контекст с исследованиями поведенческих финансов для создания данных надзора для end-to-end советников. Используя этот фреймворк, мы создаем набор данных для рассуждений объемом 19 тыс. примеров и проводим всестороннюю тонкую настройку модели Qwen-3-8B на этом наборе данных. С помощью тестового разделения и слепого исследования с участием LLM-жюри мы демонстрируем, что благодаря тщательной курации данных и интеграции поведенческих аспектов наша 8B модель достигает производительности, сопоставимой с значительно более крупными базовыми моделями (14-32B параметров), по показателям фактической точности, беглости и персонализации, при этом затраты на нее на 80% ниже, чем у более крупных аналогов.
В данном исследовании проводится систематическое сравнение гибридных квантово-классических нейронных сетей с чисто классическими моделями на трех эталонных наборах данных (MNIST, CIFAR100 и STL10) для оценки их производительности, эффективности и устойчивости. Гибридные модели интегрируют параметризованные квантовые схемы с классическими архитектурами глубокого обучения, в то время как классические аналоги используют традиционные сверточные нейронные сети (CNN). Эксперименты проводились в течение 50 эпох обучения для каждого набора данных с оценкой точности на валидации, точности на тестовых данных, времени обучения, использования вычислительных ресурсов и устойчивости к атакам (тестировалось с возмущениями epsilon=0.1). Ключевые результаты показывают, что гибридные модели стабильно превосходят классические по итоговой точности, достигая {99,38\% (MNIST), 41,69\% (CIFAR100) и 74,05\% (STL10) точности на валидации, по сравнению с классическими показателями 98,21\%, 32,25\% и 63,76\% соответственно. Примечательно, что преимущество гибридных моделей возрастает с увеличением сложности данных, демонстрируя наиболее значительный прирост на CIFAR100 (+9,44\%) и STL10 (+10,29\%). Гибридные модели также обучаются в 5–12 раз быстрее (например, 21,23 с против 108,44 с на эпоху для MNIST) и используют на 6–32\% меньше параметров, сохраняя при этом превосходную обобщающую способность на новых тестовых данных. Тесты на устойчивость к атакам показывают, что гибридные модели значительно более устойчивы на более простых наборах данных (например, 45,27\% устойчивой точности на MNIST против 10,80\% для классических), но демонстрируют сопоставимую уязвимость на сложных наборах данных, таких как CIFAR100 (около 1\% устойчивости для обеих моделей). Анализ эффективности использования ресурсов указывает на то, что гибридные модели потребляют меньше памяти (4–5 ГБ против 5–6 ГБ для классических) и имеют более низкую загрузку процессора (9,5\% против 23,2\% в среднем). Эти результаты свидетельствуют о том, что гибридные квантово-классические архитектуры предлагают убедительные преимущества в точности, эффективности обучения и масштабируемости параметров, особенно для сложных задач компьютерного зрения.