Ежедневно отобранные исследовательские статьи по ИИ с переводами
Универсальный метод фотометрического стерео (PS) направлен на восстановление высококачественных нормалей поверхности объектов при произвольных условиях освещения без использования специфических моделей освещения. Несмотря на недавние достижения, такие как SDM-UniPS и Uni MS-PS, остаются две фундаментальные проблемы: 1) глубокая связь между изменяющимся освещением и характеристиками нормалей поверхности, где неоднозначность наблюдаемой интенсивности затрудняет определение того, вызваны ли изменения яркости изменениями освещения или ориентации поверхности; и 2) сохранение высокочастотных геометрических деталей на сложных поверхностях, где замысловатые геометрии создают самозатенение, взаимные отражения и тонкие вариации нормалей, которые традиционные операции обработки признаков с трудом могут точно уловить.
В данной работе мы представляем OmniGen2 — универсальную генеративную модель с открытым исходным кодом, предназначенную для решения разнообразных задач генерации, включая преобразование текста в изображение, редактирование изображений и генерацию в контексте. В отличие от OmniGen v1, OmniGen2 оснащена двумя отдельными декодирующими путями для текстовой и визуальной модальностей, использующими независимые параметры и разделенный токенизатор изображений. Такая конструкция позволяет OmniGen2 развивать существующие модели мультимодального понимания без необходимости повторной адаптации входных данных VAE, сохраняя при этом исходные возможности генерации текста. Для облегчения обучения OmniGen2 мы разработали комплексные конвейеры подготовки данных, охватывающие данные для редактирования изображений и генерации в контексте. Кроме того, мы внедрили механизм рефлексии, адаптированный для задач генерации изображений, и создали специализированный набор данных для рефлексии на основе OmniGen2. Несмотря на относительно небольшой размер параметров, OmniGen2 демонстрирует конкурентоспособные результаты на множестве тестовых задач, включая преобразование текста в изображение и редактирование изображений. Для дальнейшей оценки генерации в контексте, также называемой задачами, управляемыми субъектом, мы вводим новый бенчмарк под названием OmniContext. OmniGen2 достигает наилучших результатов среди моделей с открытым исходным кодом с точки зрения согласованности. Мы опубликуем наши модели, обучающий код, наборы данных и конвейер подготовки данных для поддержки будущих исследований в этой области. Страница проекта: https://vectorspacelab.github.io/OmniGen2; Ссылка на GitHub: https://github.com/VectorSpaceLab/OmniGen2.
Создание сверхдлинных текстов с использованием больших языковых моделей (LLM) является широко востребованным сценарием, однако оно остается серьезной проблемой из-за ограничений на максимальную длину генерации и общего ухудшения качества по мере увеличения длины последовательности. Предыдущие подходы, такие как LongWriter, обычно полагаются на "обучение", которое включает в себя контролируемую тонкую настройку (SFT) на синтетических длинных текстах. Однако эта стратегия сильно зависит от синтетических данных для SFT, которые сложно и дорого создавать, часто лишены связности и последовательности, а также склонны быть чрезмерно искусственными и структурно однообразными. В данной работе мы предлагаем подход, основанный на стимулировании, который, начиная с нуля и не полагаясь на аннотированные или синтетические данные, использует обучение с подкреплением (RL) для развития способностей LLM к генерации сверхдлинных и качественных текстов. Мы проводим RL-обучение, начиная с базовой модели, аналогичной R1-Zero, направляя ее на рассуждения, которые способствуют планированию и улучшению в процессе написания. Для поддержки этого мы используем специализированные модели вознаграждения, которые направляют LLM на улучшение контроля длины, качества написания и структурного форматирования. Экспериментальные оценки показывают, что наша модель LongWriter-Zero, обученная на основе Qwen2.5-32B, стабильно превосходит традиционные методы SFT в задачах создания длинных текстов, достигая наилучших результатов по всем метрикам на WritingBench и Arena-Write, и даже превосходя модели с более чем 100 миллиардами параметров, такие как DeepSeek R1 и Qwen3-235B. Мы открываем исходные данные и контрольные точки модели по адресу https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
Обучение с подкреплением с верифицируемыми наградами (RLVR) демонстрирует многообещающий потенциал в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Однако его успех пока в основном ограничивается математическими и программными областями. Основное ограничение связано с сильной зависимостью от доменно-специфических верификаторов, что приводит к чрезмерной сложности и ограниченной масштабируемости. Чтобы решить эту проблему, мы обращаем внимание на то, что внутренняя вероятность LLM сгенерировать правильный свободный ответ напрямую указывает на её собственную оценку награды за рассуждение (т.е., насколько хорошо процесс рассуждения приводит к правильному ответу). На основе этого наблюдения мы предлагаем RLPR, простую верификатор-независимую структуру, которая расширяет RLVR на более широкие общие области. RLPR использует собственные вероятности токенов LLM для эталонных ответов в качестве сигнала награды и максимизирует ожидаемую награду в процессе обучения. Мы обнаруживаем, что устранение высокой дисперсии этой зашумлённой вероятностной награды имеет решающее значение для её эффективности, и предлагаем методы преобразования вероятностей в награду и стабилизации для обеспечения точной и стабильной награды на основе внутренних вероятностей LLM. Комплексные эксперименты на четырёх общих и трёх математических бенчмарках показывают, что RLPR последовательно улучшает способности к рассуждению в обеих областях для моделей на основе Gemma, Llama и Qwen. Примечательно, что RLPR превосходит конкурентный метод VeriFree на 7,6 балла на TheoremQA и на 7,5 балла на Minerva, а также опережает сильные подходы, зависящие от верификаторных моделей, такие как General-Reasoner, в среднем на 1,6 балла на семи бенчмарках.
Синтез динамических новых видов ставит своей целью создание фотореалистичных изображений движущихся объектов с произвольных точек зрения. Эта задача особенно сложна при использовании монохромного видео, где разделение структуры и движения является некорректно поставленной задачей, а доступные данные для обучения ограничены. Мы представляем Video Diffusion-Aware Reconstruction (ViDAR) — инновационную 4D-реконструкционную платформу, которая использует персонализированные диффузионные модели для синтеза псевдо-многовидового сигнала обучения, применяемого для тренировки представления на основе гауссовых сплайнов. Учитывая особенности конкретной сцены, ViDAR восстанавливает детализированные характеристики внешнего вида, одновременно минимизируя артефакты, вызванные неоднозначностью монохромного изображения. Для решения проблемы пространственно-временной несогласованности, связанной с диффузионным обучением, мы предлагаем диффузионно-осознанную функцию потерь и стратегию оптимизации положения камеры, которая согласует синтетические виды с базовой геометрией сцены. Эксперименты на DyCheck, сложном бенчмарке с экстремальными вариациями точек зрения, показывают, что ViDAR превосходит все современные базовые методы по визуальному качеству и геометрической согласованности. Мы также демонстрируем значительное улучшение ViDAR по сравнению с базовыми методами на динамических участках и предоставляем новый бенчмарк для сравнения производительности в реконструкции частей сцены с интенсивным движением. Страница проекта: https://vidar-4d.github.io
В последнее время агентный искусственный интеллект стал всё более популярной областью исследований. Однако мы утверждаем, что текущие практики исследования агентов лишены стандартизации и научной строгости, что затрудняет проведение справедливых сравнений между методами. В результате до сих пор неясно, как различные проектные решения в рамках агентных систем влияют на их эффективность, а измерение их прогресса остаётся сложной задачей. В данной работе мы проводим систематическое эмпирическое исследование на базе бенчмарка GAIA и BrowseComp, чтобы изучить влияние популярных проектных решений в ключевых компонентах агентов в справедливой и строгой манере. Мы обнаруживаем, что отсутствие стандартного протокола оценки делает предыдущие работы, даже с открытым исходным кодом, невоспроизводимыми, с существенным разбросом между случайными запусками. Поэтому мы вводим более надёжный протокол оценки для стабилизации сравнений. Наше исследование выявляет, какие компоненты и решения являются критически важными для эффективных агентов, а какие избыточны, несмотря на их кажущуюся логичность. На основе наших выводов мы создаём и открываем исходный код OAgents — новой базовой агентной системы, которая демонстрирует наилучшие результаты среди проектов с открытым исходным кодом. OAgents предлагает модульную структуру для различных компонентов агентов, способствуя дальнейшим исследованиям в области агентного искусственного интеллекта.
Модели вознаграждения процессов (Process Reward Models, PRMs) недавно появились как мощный фреймворк для контроля промежуточных шагов рассуждений в больших языковых моделях (LLMs). Предыдущие PRM в основном обучались на финальных выходных данных моделей и испытывали трудности с надежной оценкой промежуточных траекторий мышления, особенно в контексте траекторно-ответных выходных данных, генерируемых передовыми моделями рассуждений, такими как Deepseek-R1. В данной работе мы представляем ReasonFlux-PRM — новую траекторно-ориентированную PRM, специально разработанную для оценки траекторно-ответного типа следов рассуждений. ReasonFlux-PRM включает как пошаговый, так и траекторный контроль, позволяя точное назначение вознаграждений, согласованное с структурированными данными цепочки рассуждений. Мы адаптировали ReasonFlux-PRM для поддержки контроля вознаграждений как в оффлайн, так и в онлайн режимах, включая (i) выбор высококачественных данных для дистилляции моделей для последующего контролируемого тонкого обучения меньших моделей, (ii) предоставление плотных вознаграждений на уровне процесса для оптимизации политик в ходе обучения с подкреплением и (iii) включение вознаграждений для масштабирования Best-of-N на этапе тестирования. Эмпирические результаты на сложных тестовых наборах, таких как AIME, MATH500 и GPQA-Diamond, демонстрируют, что ReasonFlux-PRM-7B выбирает данные более высокого качества, чем сильные PRM (например, Qwen2.5-Math-PRM-72B) и базовые линии, составленные вручную. Кроме того, наша модель ReasonFlux-PRM-7B обеспечивает стабильное улучшение производительности, достигая среднего прироста в 12,1% при контролируемом тонком обучении, 4,5% при обучении с подкреплением и 6,3% при масштабировании на этапе тестирования. Мы также выпускаем нашу эффективную модель ReasonFlux-PRM-1.5B для ресурсо-ограниченных приложений и развертывания на периферийных устройствах. Проекты: https://github.com/Gen-Verse/ReasonFlux
Генерация видео на основе объектов достигла значительного прогресса в последние годы. Однако существующие модели по-прежнему сталкиваются с серьезными трудностями в точном следовании текстовым инструкциям. Это ограничение, известное как проблема копирования-вставки, возникает из-за широко используемой парадигмы обучения на парных данных. Такой подход неизбежно связывает идентичность объекта с фоном и контекстными атрибутами, выбирая эталонные изображения из той же сцены, что и целевое видео. Для решения этой проблемы мы представляем Phantom-Data — первый универсальный набор данных для обеспечения согласованности объектов в видео в условиях кросс-парного обучения, содержащий около миллиона пар с сохранением идентичности в различных категориях. Наш набор данных создан с использованием трехэтапного процесса: (1) универсальный модуль обнаружения объектов, согласованный с входными данными, (2) масштабный поиск объектов в различных контекстах из более чем 53 миллионов видео и 3 миллиардов изображений, и (3) проверка идентичности с использованием априорных данных для обеспечения визуальной согласованности при изменении контекста. Комплексные эксперименты показывают, что обучение на Phantom-Data значительно улучшает соответствие текстовым инструкциям и визуальное качество, сохраняя при этом согласованность идентичности на уровне базовых подходов с парным обучением.
В данной статье представлена мультимодальная структура, которая стремится объединить визуальное понимание и генерацию в рамках общего дискретного семантического представления. Основой этой структуры является Text-Aligned Tokenizer (TA-Tok), преобразующий изображения в дискретные токены с использованием текстово-выровненного кодового словаря, спроецированного из словаря крупной языковой модели (LLM). Благодаря интеграции зрения и текста в единое пространство с расширенным словарным запасом, наша мультимодальная LLM, Tar, позволяет осуществлять кросс-модальный ввод и вывод через общий интерфейс без необходимости в модально-специфичных решениях. Дополнительно мы предлагаем масштабно-адаптивное кодирование и декодирование для баланса между эффективностью и визуальной детализацией, а также генеративный де-токенизатор для создания высококачественных визуальных выходов. Для удовлетворения разнообразных потребностей декодирования мы используем два взаимодополняющих де-токенизатора: быструю авторегрессионную модель и модель на основе диффузии. Для улучшения слияния модальностей мы исследуем передовые задачи предварительного обучения, демонстрируя улучшения как в визуальном понимании, так и в генерации. Эксперименты на различных тестовых наборах показывают, что Tar соответствует или превосходит существующие методы мультимодальных LLM, достигая более быстрой сходимости и большей эффективности обучения. Код, модели и данные доступны по адресу https://tar.csuhan.com.
Мы предлагаем новый механизм памяти для создания генераторов видео, способных интерактивно исследовать окружения. Подобные результаты ранее достигались путем дорисовки 2D-видов сцены с постепенным восстановлением её 3D-геометрии, что быстро приводит к накоплению ошибок, или с использованием генераторов видео с коротким контекстным окном, которые испытывают трудности с поддержанием согласованности сцены на длительных временных интервалах. Для устранения этих ограничений мы представляем механизм Surfel-Indexed View Memory (VMem), который запоминает прошлые виды, индексируя их геометрически на основе наблюдаемых 3D-поверхностных элементов (surfels). VMem позволяет эффективно извлекать наиболее релевантные прошлые виды при генерации новых. Фокусируясь только на этих релевантных видах, наш метод обеспечивает согласованное исследование воображаемых окружений при значительно меньших вычислительных затратах по сравнению с использованием всех прошлых видов в качестве контекста. Мы оцениваем наш подход на сложных бенчмарках синтеза сцен на длительных временных интервалах и демонстрируем превосходную производительность по сравнению с существующими методами в поддержании согласованности сцены и управлении камерой.
Мы представляем DIP — новый метод посттренировки без учителя, предназначенный для улучшения плотных представлений изображений в крупномасштабных предобученных визуальных энкодерах для контекстного понимания сцен. В отличие от предыдущих подходов, которые полагаются на сложные архитектуры самодистилляции, наш метод обучает визуальный энкодер с использованием псевдозадач, которые явно моделируют сценарии контекстного понимания, вдохновленные принципами метаобучения. Для обеспечения посттренировки на немаркированных данных мы предлагаем автоматический механизм генерации контекстных задач, который сочетает предобученную диффузионную модель и сам визуальный энкодер. DIP прост, не требует учителя и вычислительно эффективен, занимая менее 9 часов на одном GPU A100. Обучаясь плотным представлениям через псевдоконтекстные задачи, метод демонстрирует высокую производительность в широком спектре реальных задач контекстного понимания сцен. Он превосходит как исходный визуальный энкодер, так и предыдущие методы, предлагая практичное и эффективное решение для улучшения плотных представлений. Код доступен по ссылке: https://github.com/sirkosophia/DIP.
Мы представляем RealPlay, нейросетевой игровой движок для реального мира, который позволяет генерировать интерактивное видео на основе управляющих сигналов пользователя. В отличие от предыдущих работ, ориентированных на игровую графику, RealPlay стремится создавать фотореалистичные и временно согласованные видеопоследовательности, напоминающие реальные съемки. Он работает в интерактивном цикле: пользователь наблюдает сгенерированную сцену, отправляет управляющую команду и получает короткий видеосегмент в ответ. Для обеспечения такой реалистичной и отзывчивой генерации мы решаем ключевые задачи, включая итеративное предсказание по сегментам для низкой задержки, временную согласованность между итерациями и точное реагирование на управление. RealPlay обучается на комбинации размеченных игровых данных и немаркированных видеозаписей из реального мира, не требуя аннотаций действий в реальном мире. Примечательно, что мы наблюдаем две формы обобщения: (1) перенос управления — RealPlay эффективно преобразует управляющие сигналы из виртуальных сценариев в реальные; и (2) перенос сущностей — несмотря на то, что метки обучения получены исключительно из игры с автогонками, RealPlay обобщает управление на разнообразные сущности реального мира, включая велосипеды и пешеходов, помимо транспортных средств. Страница проекта доступна по ссылке: https://wenqsun.github.io/RealPlay/
Профилирование пользователей играет ключевую роль в рекомендательных системах, так как преобразует необработанные данные о взаимодействиях пользователей в компактные и структурированные представления, которые лежат в основе персонализированных рекомендаций. В то время как традиционные профили на основе эмбеддингов страдают от недостатка интерпретируемости и адаптивности, последние достижения в области больших языковых моделей (LLM) позволяют создавать текстовые профили, которые обладают более богатой семантикой и прозрачностью. Однако существующие методы часто придерживаются фиксированных форматов, что ограничивает их способность охватывать всё разнообразие пользовательских поведений. В данной статье мы представляем LettinGo — новый фреймворк для генерации разнообразных и адаптивных пользовательских профилей. Используя выразительные возможности LLM и включая прямую обратную связь от задач рекомендательных систем, наш подход избегает жёстких ограничений, накладываемых обучением с учителем (SFT). Вместо этого мы применяем оптимизацию на основе прямых предпочтений (DPO) для согласования генератора профилей с производительностью, специфичной для задачи, что обеспечивает адаптивность и эффективность профилей. LettinGo работает в три этапа: (1) исследование разнообразных пользовательских профилей с помощью нескольких LLM, (2) оценка качества профилей на основе их влияния на рекомендательные системы и (3) согласование генерации профилей с использованием парных данных о предпочтениях, полученных из результатов выполнения задачи. Экспериментальные результаты показывают, что наш фреймворк значительно повышает точность, гибкость и контекстную осведомлённость рекомендаций. Эта работа поднимает генерацию профилей на новый уровень, представляя её как ключевое направление для рекомендательных систем следующего поколения.
Мультимодальные большие языковые модели (MLLMs) начали демонстрировать устойчивые способности к рассуждению в общих задачах, однако их применение в медицинской области всё ещё находится на ранних этапах. Создание данных для обучения с использованием цепочки рассуждений (CoT) является ключевым для усиления способностей медицинских MLLM к рассуждению. Однако существующие подходы не предлагают всеобъемлющей структуры для поиска и оценки эффективных путей рассуждения, ведущих к критически важным диагнозам. Для решения этой задачи мы предлагаем Mentor-Intern Collaborative Search (MICS) — новую схему поиска путей рассуждения для генерации строгих и эффективных медицинских данных CoT. MICS сначала использует модели-наставники для инициализации рассуждений шаг за шагом, затем предлагает каждой модели-стажёру продолжить мышление по этим начатым путям и, наконец, выбирает оптимальный путь рассуждения на основе общей производительности нескольких моделей-стажёров. Производительность рассуждений определяется с помощью MICS-Score, который оценивает качество сгенерированных путей рассуждения. В итоге мы создаём MMRP — многозадачный медицинский набор данных для рассуждений с ранжированной сложностью, и Chiron-o1 — новую медицинскую MLLM, разработанную с использованием стратегии обучения по учебному плану, обладающую устойчивыми способностями к визуальному ответу на вопросы и обобщаемым рассуждениям. Многочисленные эксперименты показывают, что Chiron-o1, обученная на нашем наборе данных CoT, созданном с использованием MICS, достигает наилучших результатов в ряде медицинских тестов на визуальное ответы на вопросы и рассуждения. Код доступен на GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
Мы предлагаем первую архитектуру, способную вычислять 4D пространственно-временную сетку видеокадров и 3D частицы Гаусса для каждого временного шага с использованием прямого распространения. Наша архитектура состоит из двух основных компонентов: модели 4D видео и модели 4D реконструкции. В первой части мы анализируем современные архитектуры 4D видео с диффузией, которые выполняют пространственное и временное внимание либо последовательно, либо параллельно в рамках двухпоточного дизайна. Мы выделяем ограничения существующих подходов и представляем новую объединенную архитектуру, которая выполняет пространственное и временное внимание в рамках одного слоя. Ключевым элементом нашего метода является разреженный паттерн внимания, где токены взаимодействуют с другими в том же кадре, в тот же момент времени или с той же точки зрения. Во второй части мы расширяем существующие алгоритмы 3D реконструкции, вводя голову Гаусса, алгоритм замены токенов камеры, а также дополнительные динамические слои и обучение. В целом, мы устанавливаем новый уровень качества для 4D генерации, улучшая как визуальное качество, так и возможности реконструкции.
Оценка генеративных 3D-моделей остается сложной задачей из-за несоответствия между автоматическими метриками и восприятием качества человеком. Современные бенчмарки полагаются на метрики, основанные на изображениях, которые игнорируют 3D-структуру, или на геометрические меры, которые не учитывают визуальную привлекательность и практическую полезность. Чтобы устранить этот пробел, мы представляем 3D Arena — открытую платформу для оценки моделей генерации изображений в 3D через сбор предпочтений пользователей в масштабе с использованием парных сравнений. С момента запуска в июне 2024 года платформа собрала 123 243 голоса от 8 096 пользователей для 19 современных моделей, что делает ее крупнейшей оценкой человеческих предпочтений для генеративных 3D-моделей. Мы представляем набор данных iso3d, содержащий 100 оценочных запросов, и демонстрируем контроль качества, достигающий 99,75% подлинности пользователей благодаря статистическому обнаружению мошенничества. Наша система ранжирования на основе ELO обеспечивает надежную оценку моделей, делая платформу устоявшимся ресурсом для оценки. Анализируя данные о предпочтениях, мы выявляем закономерности в выборе пользователей. Наши результаты показывают предпочтения в визуальных характеристиках: выходные данные с использованием гауссовых сплатов имеют преимущество в 16,6 баллов ELO по сравнению с сетками, а текстурированные модели получают преимущество в 144,1 балла ELO по сравнению с моделями без текстур. Мы предлагаем рекомендации по улучшению методов оценки, включая многокритериальную оценку, ориентированную на задачи оценку и сравнение с учетом формата. Вовлечение сообщества делает 3D Arena эталоном в области, способствуя углублению понимания человеко-ориентированной оценки в генеративных 3D-моделях.
Архитектура Mixture of Experts (MoE) стала мощной парадигмой для масштабирования больших языковых моделей (LLM) при сохранении эффективности вывода. Однако их огромные требования к памяти делают их чрезмерно дорогими для тонкой настройки или развертывания в условиях ограниченных ресурсов. Для решения этой проблемы мы представляем SlimMoE — многоэтапную структуру сжатия, которая преобразует большие модели MoE в значительно более компактные и эффективные варианты без необходимости дорогостоящего обучения с нуля. Наш метод систематически сокращает количество параметров за счет уменьшения числа экспертов и передачи знаний через промежуточные этапы, эффективно смягчая снижение производительности, характерное для одноэтапных подходов к обрезке. Используя эту структуру, мы сжимаем модель Phi 3.5-MoE (41,9 млрд общих/6,6 млрд активных параметров) до Phi-mini-MoE (7,6 млрд общих/2,4 млрд активных параметров) и Phi-tiny-MoE (3,8 млрд общих/1,1 млрд активных параметров), используя всего 400 млрд токенов — менее 10% данных обучения оригинальной модели. Эти сжатые модели могут быть тонко настроены на одном GPU (A100 для Phi-mini-MoE, A6000 для Phi-tiny-MoE), что делает их идеально подходящими для академических и ресурсоограниченных сред. Наши эксперименты показывают, что эти сжатые модели превосходят другие модели аналогичного размера и остаются конкурентоспособными с более крупными моделями. Например, Phi-mini-MoE демонстрирует схожую или лучшую производительность по сравнению с Phi-3-mini, используя лишь 2/3 активных параметров, и показывает сопоставимые результаты MMLU с Llama 3.1 8B, несмотря на значительно меньшую задержку. Наши результаты демонстрируют, что структурированная обрезка в сочетании с поэтапной дистилляцией предлагает эффективный путь к созданию высококачественных компактных моделей MoE, открывая путь для более широкого внедрения архитектур MoE. Мы делаем наши модели общедоступными по адресам https://huggingface.co/microsoft/Phi-mini-MoE-instruct и https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
В данной статье представлен FinCoT — структурированный подход к цепочке рассуждений (CoT), который включает в себя знания экспертов в области финансов для управления процессом рассуждений крупных языковых моделей. Мы выделяем три основных стиля подсказок в FinNLP: (1) стандартные подсказки — zero-shot prompting; (2) неструктурированные CoT — подсказки CoT без явной структуры рассуждений, например, без использования тегов; и (3) структурированные CoT — подсказки CoT с явными инструкциями или примерами, определяющими структурированные шаги рассуждений. Ранее FinNLP в основном сосредотачивался на инженерии подсказок с использованием стандартных или неструктурированных CoT. Однако структурированные CoT получили ограниченное внимание в предыдущих работах. Более того, проектирование структур рассуждений в структурированных CoT часто основывалось на эвристиках, предложенных неэкспертами в данной области. В данном исследовании мы анализируем каждый из подходов к подсказкам в FinNLP. Мы оцениваем три основных стиля подсказок и FinCoT на вопросах в стиле CFA, охватывающих десять финансовых областей. Мы наблюдаем, что FinCoT улучшает производительность с 63,2% до 80,5% для одной модели и с 69,7% до 74,2% для модели Qwen-2.5-7B-Instruct, одновременно сокращая количество генерируемых токенов в восемь раз по сравнению со структурированными CoT. Наши результаты показывают, что структурированные подсказки, согласованные с предметной областью, не только повышают производительность и снижают затраты на вывод, но и обеспечивают более интерпретируемые и согласованные с экспертами цепочки рассуждений.
Редактирование освещения в длинных видео со сложной динамикой имеет значительную ценность для различных прикладных задач, включая создание и манипуляцию визуальным контентом, а также масштабирование данных для воплощённого ИИ через трансфер sim2real и real2real. Тем не менее, существующие методы переосвещения видео в основном ограничиваются портретными видео или сталкиваются с проблемами временной согласованности и вычислительной эффективности. В данной статье мы предлагаем TC-Light, новую парадигму, характеризующуюся предложенным двухэтапным механизмом пост-оптимизации. Начиная с видео, предварительно переосвещённого расширенной моделью переосвещения видео, на первом этапе оптимизируется встраивание внешнего вида для согласования глобального освещения. Затем на втором этапе оптимизируется предложенное каноническое представление видео, а именно Уникальный Видео Тензор (UVT), для согласования детализированной текстуры и освещения. Для всесторонней оценки производительности мы также создали эталонный набор данных для длинных и высокодинамичных видео. Многочисленные эксперименты показывают, что наш метод обеспечивает физически правдоподобные результаты переосвещения с превосходной временной согласованностью и низкими вычислительными затратами. Код и демонстрационные видео доступны по адресу https://dekuliutesla.github.io/tclight/.
DeepSeek-R1 успешно улучшил способности к рассуждению в крупных языковых моделях (LLM) благодаря своей системе вознаграждений, основанной на правилах. Хотя это «идеальная» система вознаграждений, которая эффективно предотвращает манипуляции с вознаграждениями, такие функции вознаграждения часто являются дискретными. Наши экспериментальные наблюдения показывают, что дискретные вознаграждения могут приводить к аномалиям градиента, нестабильной оптимизации и медленной сходимости. Для решения этой проблемы мы предлагаем метод ReDit (Reward Dithering), который добавляет простой случайный шум к дискретному сигналу вознаграждения. С таким изменённым вознаграждением исследовательские градиенты непрерывно предоставляются на протяжении всего процесса обучения, что позволяет осуществлять более плавные обновления градиента и ускорять сходимость. Введённый шум также добавляет стохастичность в плоские области вознаграждения, побуждая модель исследовать новые стратегии и избегать локальных оптимумов. Эксперименты на различных задачах демонстрируют эффективность и производительность ReDit. В среднем ReDit достигает результатов, сопоставимых с базовым GRPO, используя лишь около 10% шагов обучения, и при этом демонстрирует улучшение производительности на 4% по сравнению с базовым GRPO при обучении в течение аналогичного времени. Визуализации подтверждают значительное смягчение проблем с градиентом при использовании ReDit. Кроме того, предоставлены теоретические анализы, которые дополнительно подтверждают эти преимущества.
Генерация многовидовых изображений на основе инструкций человека имеет ключевое значение для создания 3D-контента. Основные сложности заключаются в обеспечении согласованности между несколькими видами и эффективном синтезе форм и текстур в различных условиях. В данной работе мы предлагаем метод Multi-View Auto-Regressive (MV-AR), который использует авторегрессионную модель для постепенной генерации согласованных многовидовых изображений из произвольных запросов. Во-первых, способность модели AR предсказывать следующий токен значительно повышает её эффективность в прогрессивном синтезе многовидовых изображений. При генерации сильно разнесённых видов MV-AR может использовать все предыдущие виды для извлечения полезной справочной информации. Затем мы предлагаем унифицированную модель, которая адаптируется к различным запросам за счёт проектирования архитектуры и стратегий обучения. Для работы с множественными условиями мы вводим модули инъекции условий для текста, позы камеры, изображения и формы. Для одновременного управления многомодальными условиями применяется прогрессивная стратегия обучения. Эта стратегия сначала использует модель text-to-multi-view (t2mv) в качестве базовой для улучшения разработки всеобъемлющей модели X-to-multi-view (X2mv) путём случайного исключения и комбинирования условий. Наконец, для смягчения проблемы переобучения, вызванной ограниченным количеством высококачественных данных, мы предлагаем технику аугментации данных "Shuffle View", что значительно расширяет объём обучающих данных в несколько раз. Эксперименты демонстрируют производительность и универсальность нашей модели MV-AR, которая стабильно генерирует согласованные многовидовые изображения в различных условиях и показывает результаты, сопоставимые с ведущими моделями генерации многовидовых изображений на основе диффузии. Код и модели будут доступны по адресу https://github.com/MILab-PKU/MVAR.
Недавний переход приложений генеративного ИИ (GenAI) из исключительно облачных сред на устройства конечных пользователей влечет за собой новые вызовы в управлении ресурсами, эффективности систем и пользовательском опыте. В данной статье представлен ConsumerBench — комплексный фреймворк для бенчмаркинга, предназначенный для оценки системной эффективности и времени отклика моделей GenAI, работающих на устройствах конечных пользователей. В отличие от существующих бенчмарков, которые предполагают эксклюзивный доступ к моделям на выделенных GPU, ConsumerBench моделирует реалистичные сценарии с одновременным выполнением нескольких приложений на ограниченном аппаратном обеспечении. Кроме того, ConsumerBench поддерживает настраиваемые рабочие процессы, имитирующие сложные задачи, требующие координации между несколькими приложениями. ConsumerBench фиксирует как метрики на уровне приложений, включая задержку и достижение целевых показателей уровня обслуживания (SLO), так и системные метрики, такие как использование CPU/GPU и пропускная способность памяти. В ходе обширных экспериментов ConsumerBench выявляет неэффективность распределения ресурсов, несправедливое планирование при жадном распределении и проблемы производительности статических конфигураций серверов моделей. В статье также представлены практические рекомендации для разработчиков моделей и проектировщиков систем, подчеркивающие преимущества специализированных ядер, оптимизированных для архитектур GPU потребительского уровня, и ценность реализации стратегий планирования, учитывающих целевые показатели уровня обслуживания (SLO).
Модели вознаграждения (RMs) играют ключевую роль в согласовании крупных языковых моделей (LLMs) с помощью обратной связи от человека, однако они часто страдают от проблемы "взлома вознаграждения". Такие модели склонны фиксироваться на поверхностных или ложных атрибутах, таких как длина ответа или его форматирование, ошибочно принимая эти признаки, выученные из корреляций в обучающих данных, за истинные причинные факторы качества (например, фактическая точность, релевантность). Это происходит потому, что стандартные цели обучения не способны разделить эти факторы, что приводит к хрупким моделям вознаграждения и несогласованным политикам. Мы представляем Crome (Causally Robust Reward Modeling) — новую структуру, основанную на явной причинной модели, предназначенную для смягчения проблемы взлома вознаграждения. Crome использует следующие синтетические целевые расширения в процессе обучения: (1) Причинные расширения — пары, различающиеся по конкретным причинным атрибутам, чтобы обеспечить чувствительность к каждому причинному атрибуту в отдельности, и (2) Нейтральные расширения — пары с одинаковыми метками, варьирующиеся в основном по ложным атрибутам, чтобы обеспечить инвариантность к ложным атрибутам. Примечательно, что наши расширения создаются без какого-либо знания о ложных факторах, только через вмешательства в ответы вдоль причинных критериев, которые определяются путем запросов к оракулу LLM. Эмпирически Crome значительно превосходит стандартные базовые модели на RewardBench, улучшая среднюю точность до 5,4% и достигая прироста до 13,2% и 7,2% в отдельных категориях. Робастность Crome дополнительно подтверждается стабильными улучшениями в настройке Best-of-N при увеличении N на различных тестах, включая популярный RewardBench (охватывающий задачи чата, сложного чата, безопасности и рассуждений), ориентированный на безопасность WildGuardTest и специализированный на рассуждениях GSM8k.
В данной работе исследуется, может ли активация скрытых подпространств в языковых моделях (LLM) направлять генерацию научного кода в сторону конкретного языка программирования. Сначала пять каузальных LLM были протестированы на научных кодовых запросах, чтобы количественно оценить их базовую предвзятость среди четырех языков программирования. Статический метод атрибуции нейронов, заключающийся в возмущении наиболее активированного веса MLP для токена C++ или CPP, оказался ненадежным и показал ограниченную обобщаемость для различных стилей запросов и масштабов моделей. Для устранения этих ограничений был разработан градиентно-уточненный адаптивный фреймворк активационного управления (G-ACT): различия в активации для каждого запроса кластеризуются в небольшой набор направлений управления, а легковесные зонды на уровне слоев обучаются и уточняются в режиме реального времени для выбора подходящего вектора управления. В модели LLaMA-3.2 3B этот подход надежно смещает генерацию в сторону языка CPP, увеличивая среднюю точность классификации зондов на 15%, а для ранних слоев (0-6) точность классификации зондов улучшается на 61,5% по сравнению со стандартным фреймворком ACT. Для модели LLaMA-3.3 70B, где сигналы голов внимания становятся более рассеянными, целевые инъекции в ключевые слои все же улучшают выбор языка. Хотя зондирование на уровне слоев вносит умеренные накладные расходы на вывод, оно остается практичным, управляя только подмножеством слоев, и обеспечивает воспроизводимое поведение модели. Эти результаты демонстрируют масштабируемый, интерпретируемый и эффективный механизм управления на уровне концепций для практических агентных систем.
Разреженные автоэнкодеры (SAE) стали перспективным решением для декомпозиции представлений крупных языковых моделей на интерпретируемые признаки. Однако Пауло и Белроуз (2025) отметили нестабильность при различных начальных значениях (инициализационных сидах), а Хип и др. (2025) указали, что SAE могут не захватывать внутренние признаки модели. Эти проблемы, вероятно, возникают из-за обучения SAE на внешних наборах данных — собранных из интернета или сгенерированных другой моделью, — которые могут содержать данные, выходящие за пределы обобщающих способностей модели (out-of-distribution, OOD). Это может приводить к появлению "фальшивых признаков" (Fake Features), которые искажают внутренние активации модели. Для решения этих проблем мы предлагаем FaithfulSAE — метод, который обучает SAE на синтетических данных самой модели. Используя FaithfulSAE, мы демонстрируем, что обучение SAE на менее OOD наборах инструкций делает SAE более стабильными при различных сидах. Примечательно, что FaithfulSAE превосходят SAE, обученные на интернет-данных, в задаче зондирования SAE и демонстрируют более низкий коэффициент "фальшивых признаков" в 5 из 7 моделей. В целом наш подход устраняет зависимость от внешних наборов данных, улучшая интерпретируемость за счет более точного захвата внутренних признаков модели и подчеркивая часто упускаемую важность наборов данных для обучения SAE.
Крупные языковые модели (LLM) всё чаще применяются в задачах, требующих работы с длинными контекстами, однако кэш ключей и значений (KV) часто становится узким местом в памяти GPU при увеличении длины контекста. Для решения этой проблемы мы предлагаем метод коммутативного векторного квантования (CommVQ), который значительно сокращает использование памяти при выводе LLM с длинными контекстами. Сначала мы вводим аддитивное квантование с использованием легковесного кодера и кодовой книги для сжатия KV-кэша, который может быть декодирован с помощью простого матричного умножения. Чтобы дополнительно снизить вычислительные затраты при декодировании, мы проектируем кодовую книгу так, чтобы она была коммутативна с ротационным позиционным кодированием (RoPE), и обучаем её с использованием алгоритма максимизации ожиданий (EM). Это позволяет эффективно интегрировать декодирование в механизм самовнимания. Наш подход обеспечивает высокую точность благодаря аддитивному квантованию и низкие накладные расходы за счёт RoPE-коммутативной кодовой книги. Эксперименты на бенчмарках с длинными контекстами и GSM8K показывают, что наш метод сокращает размер FP16 KV-кэша на 87,5% при 2-битном квантовании, превосходя современные методы квантования KV-кэша. Примечательно, что он позволяет использовать 1-битное квантование KV-кэша с минимальной потерей точности, что позволяет модели LLaMA-3.1 8B работать с длиной контекста 128K на одном GPU RTX 4090. Исходный код доступен по адресу: https://github.com/UMass-Embodied-AGI/CommVQ.
Несмотря на их впечатляющие возможности, согласованные большие языковые модели (LLM) часто генерируют выходные данные, которым не хватает разнообразия. Что вызывает эту стабильность в генерации? Мы исследуем это явление через призму концентрации вероятностей в распределении выходных данных модели. Чтобы количественно оценить эту концентрацию, мы вводим понятие коэффициента ветвления (Branching Factor, BF) — инвариантной к токенам меры эффективного числа правдоподобных следующих шагов во время генерации. Наш эмпирический анализ выявил два ключевых результата: (1) BF часто уменьшается по мере прогрессирования генерации, что указывает на то, что LLM становятся более предсказуемыми в процессе генерации. (2) настройка согласованности существенно заостряет распределение выходных данных модели с самого начала, уменьшая BF почти на порядок (например, с 12 до 1,2) по сравнению с базовыми моделями. Это резкое снижение помогает объяснить, почему согласованные модели часто кажутся менее чувствительными к стратегиям декодирования. Опираясь на это понимание, мы обнаруживаем, что эта стабильность имеет удивительные последствия для сложных рассуждений. Согласованные модели с цепочкой рассуждений (Chain-of-Thought, CoT), например, модели, полученные методом дистилляции DeepSeek, используют этот эффект; генерируя более длинные цепочки рассуждений, они переводят генерацию на более поздние, более детерминированные (с меньшим BF) этапы, что приводит к более стабильным выходным данным. Мы предполагаем, что настройка согласованности не меняет фундаментально поведение модели, а направляет её на стилистические токены (например, "Конечно"), которые открывают низкоэнтропийные траектории, уже присутствующие в базовой модели. Эта точка зрения подтверждается экспериментами с подталкиванием, которые показывают, что подсказка базовым моделям таких токенов может аналогично снизить BF. В совокупности наши результаты устанавливают BF как мощный диагностический инструмент для понимания и контроля выходных данных LLM — проясняя, как согласованность снижает изменчивость, как CoT способствует стабильной генерации и как базовые модели могут быть направлены в сторону уменьшения разнообразия.
Обнаружение сгенерированного ИИ кода, дипфейков и другого синтетического контента представляет собой новую исследовательскую задачу. По мере того как код, созданный крупными языковыми моделями (LLM), становится все более распространенным, определение конкретной модели, стоящей за каждым образцом, приобретает все большую важность. В данной статье представлено первое систематическое исследование атрибуции авторства LLM для программ на языке C. Мы представили CodeT5-Authorship — новую модель, которая использует только слои энкодера из оригинальной архитектуры CodeT5 с энкодером и декодером, отбрасывая декодер для фокусировки на классификации. Выход энкодера модели (первый токен) передается через двухслойный классификационный блок с активацией GELU и dropout, что позволяет получить распределение вероятностей по возможным авторам. Для оценки нашего подхода мы представили LLM-AuthorBench — бенчмарк, содержащий 32 000 компилируемых программ на C, сгенерированных восемью передовыми LLM для различных задач. Мы сравнили нашу модель с семью традиционными классификаторами машинного обучения и восемью тонко настроенными трансформерными моделями, включая BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer и LoRA-настроенную Qwen2-1.5B. В бинарной классификации наша модель достигает точности 97,56% в различении программ на C, сгенерированных близкими моделями, такими как GPT-4.1 и GPT-4o, и 95,40% точности для многоклассовой атрибуции среди пяти ведущих LLM (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 и DeepSeek-V3). В поддержку открытой науки мы публикуем архитектуру CodeT5-Authorship, бенчмарк LLM-AuthorBench и все соответствующие скрипты Google Colab на GitHub: https://github.com/LLMauthorbench/.
Современные мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты на эталонных задачах, связанных с обработкой визуальной и текстовой информации, однако до сих пор мало изучено, как качество входных визуальных данных влияет на их ответы. Означает ли более высокое перцептивное качество изображений лучшее понимание MLLM? Мы проводим первое систематическое исследование, охватывающее ведущие MLLM и набор эталонных задач для обработки визуально-текстовой информации, применяя контролируемые искажения и стилистические изменения к каждому изображению. Удивительно, но мы обнаруживаем парадокс визуального качества: производительность модели, задачи и даже отдельных экземпляров может улучшаться, когда изображения отклоняются от воспринимаемой человеком точности. Готовые решения для восстановления изображений не способны учесть эти идиосинкразические предпочтения. Чтобы устранить этот разрыв, мы представляем метод адаптации на этапе тестирования с учетом визуального качества (VQ-TTT) — легковесный модуль адаптации, который: (1) вставляет обучаемое низкоранговое ядро перед замороженным визуальным кодировщиком для модуляции частотного содержания; и (2) тонко настраивает только поверхностные слои визуального кодировщика с помощью LoRA. VQ-TTT динамически корректирует каждое входное изображение за один прямой проход, согласуя его с предпочтениями модели для конкретной задачи. На всех оцененных MLLM и наборах данных VQ-TTT значительно повышает среднюю точность, не требуя внешних моделей, кэшированных признаков или дополнительных обучающих данных. Эти результаты переопределяют понятие «лучших» визуальных входных данных для MLLM и подчеркивают необходимость адаптивных, а не универсально «чистых» изображений в новую эпоху, когда ИИ становится основным потребителем данных.
Можем ли мы масштабировать 4D-предобучение для изучения общих пространственно-временных представлений, которые восстанавливают объект по нескольким видам в определённые моменты времени до любого вида в любое время? Мы даём утвердительный ответ с помощью 4D-LRM — первой крупномасштабной модели 4D-реконструкции, которая принимает входные данные из произвольных видов и временных меток и визуализирует произвольные комбинации новых видов и времени. В отличие от предыдущих 4D-подходов, таких как оптимизационные, геометрические или генеративные, которые сталкиваются с проблемами эффективности, обобщения или точности, 4D-LRM изучает унифицированное пространственно-временное представление и напрямую предсказывает 4D-гауссовы примитивы на уровне пикселей из размеченных изображений во времени, что позволяет быстро и качественно визуализировать данные с, в принципе, бесконечной частотой кадров. Наши результаты демонстрируют, что масштабирование пространственно-временного предобучения обеспечивает точную и эффективную 4D-реконструкцию. Мы показываем, что 4D-LRM обобщается на новые объекты, интерполирует по времени и справляется с разнообразными настройками камер. Модель восстанавливает 24-кадровые последовательности за один прямой проход менее чем за 1,5 секунды на одном GPU A100.
Медицинское визуальное ответы на вопросы направлено на поддержку принятия клинических решений, позволяя моделям отвечать на вопросы на естественном языке на основе медицинских изображений. Хотя последние достижения в области мультимодального обучения значительно улучшили производительность, текущие методы все еще страдают от ограниченной надежности ответов и низкой интерпретируемости, что затрудняет понимание и доверие клиницистов и пациентов к ответам, генерируемым моделями. Для решения этой проблемы в данной работе сначала предлагается набор данных "Thinking with Visual Grounding" (ThinkVG), в котором генерация ответа разбивается на промежуточные шаги рассуждения, явно привязывающие соответствующие визуальные области медицинского изображения, тем самым обеспечивая детальную объяснимость. Кроме того, мы представляем новый механизм проверяемого вознаграждения для обучения с подкреплением, который направляет пост-обучение, улучшая согласованность между процессом рассуждения модели и ее окончательным ответом. Примечательно, что наш метод демонстрирует сопоставимую производительность, используя только одну восьмую часть обучающих данных, что подчеркивает эффективность и результативность предложенного подхода. Набор данных доступен по адресу https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
Последние достижения в области базовых моделей для музыки улучшили обучение представлениям аудио, однако их эффективность в различных музыкальных традициях остается ограниченной. Мы представляем CultureMERT-95M, многокультурно адаптированную базовую модель, разработанную для улучшения обучения и понимания кросс-культурных музыкальных представлений. Для достижения этой цели мы предлагаем двухэтапную стратегию непрерывного предварительного обучения, которая включает повторный разогрев и повторное затухание скорости обучения, что позволяет стабильно адаптироваться даже при ограниченных вычислительных ресурсах. Обучение на 650-часовом многокультурном наборе данных, включающем греческие, турецкие и индийские музыкальные традиции, приводит к среднему улучшению на 4,9% по показателям ROC-AUC и AP в различных задачах автоматической разметки не-западной музыки, превосходя предыдущие передовые результаты, с минимальным забыванием на западных бенчмарках. Мы также исследуем арифметику задач, альтернативный подход к многокультурной адаптации, который объединяет модели, адаптированные для отдельных культур, в пространстве весов. Арифметика задач показывает результаты, сопоставимые с нашей многокультурно обученной моделью в задачах автоматической разметки не-западной музыки, и не демонстрирует регрессии на западных наборах данных. Кросс-культурная оценка показывает, что модели, адаптированные для отдельных культур, переносятся с разной эффективностью на различные музыкальные традиции, тогда как многокультурно адаптированная модель достигает наилучших общих результатов. Для поддержки исследований в области обучения представлений мировой музыки мы публично выпускаем CultureMERT-95M и CultureMERT-TA-95M, способствуя разработке более культурно осознанных базовых моделей для музыки.
Крупные языковые модели (LLM) достигли значительных успехов, однако их внедрение выявило серьёзные уязвимости, особенно к атакам типа "jailbreak", которые обходят механизмы безопасности. "Защитные барьеры" (guardrails) — внешние механизмы защиты, которые отслеживают и контролируют взаимодействие с LLM, — стали перспективным решением. Однако текущий ландшафт таких барьеров фрагментирован и лишён единой таксономии и всеобъемлющей системы оценки. В данной работе, систематизирующей знания (SoK), мы представляем первый целостный анализ защитных барьеров для LLM от атак jailbreak. Мы предлагаем новую многомерную таксономию, классифицирующую барьеры по шести ключевым измерениям, и вводим оценочную систему "Безопасность-Эффективность-Полезность" для оценки их практической эффективности. На основе обширного анализа и экспериментов мы выявляем сильные и слабые стороны существующих подходов, исследуем их универсальность для различных типов атак и предлагаем рекомендации по оптимизации комбинаций защитных механизмов. Наша работа создаёт структурированную основу для будущих исследований и разработок, направляя принципиальное развитие и внедрение надёжных защитных барьеров для LLM. Код доступен по адресу: https://github.com/xunguangwang/SoK4JailbreakGuardrails.
Визуализация историй стала популярной задачей, в которой создаются визуальные сцены для отображения повествования через несколько панелей. Основная сложность в этом контексте заключается в поддержании визуальной согласованности, особенно в том, как персонажи и объекты сохраняются и развиваются на протяжении истории. Несмотря на недавние достижения в области диффузионных моделей, современные подходы часто не сохраняют ключевые атрибуты персонажей, что приводит к несогласованным повествованиям. В данной работе мы предлагаем совместную мультиагентную структуру, которая автономно выявляет, исправляет и уточняет несогласованности в много панельных визуализациях историй. Агенты работают в итеративном цикле, позволяя выполнять детализированные обновления на уровне панелей без необходимости повторной генерации всей последовательности. Наша структура является модельно-независимой и гибко интегрируется с различными диффузионными моделями, включая трансформеры с исправленным потоком, такие как Flux, и латентные диффузионные модели, такие как Stable Diffusion. Количественные и качественные эксперименты показывают, что наш метод превосходит предыдущие подходы с точки зрения согласованности много панельных визуализаций.
Современные многомодальные большие языковые модели (MLLMs) часто испытывают трудности с генерацией персонализированных описаний изображений, даже при обучении на высококачественных подписях. В данной работе мы отмечаем, что такие ограничения сохраняются в существующих методах персонализации MLLM, основанных на пост-обучении. В частности, несмотря на тонкую настройку с использованием масштабных данных подписей через контролируемое тонкое обучение (SFT), эти модели часто не способны создавать точные описания в реальных сценариях, таких как генерация подписей для изображений с несколькими концепциями. Однако получение масштабных, высококачественных подписей для таких сложных условий является дорогостоящим и трудным процессом. Чтобы решить проблему, связанную с ориентацией SFT на данные, мы предлагаем пост-обучающую структуру, основанную на обучении с подкреплением (RL). Насколько нам известно, это первый подход на основе RL для пост-обучения MLLM с целью персонализированной генерации подписей к изображениям. Наш метод значительно улучшает как способности визуального распознавания, так и персонализированной генерации MLLM и стабильно превосходит существующие базовые методы, основанные на SFT, особенно в сложной задаче генерации подписей для изображений с несколькими концепциями.
Последние достижения в области больших языковых моделей (LLM) привели к значительному прогрессу в обработке естественного языка, однако их вычислительные и ресурсные требования остаются серьезной проблемой, особенно для задач с длинным контекстом. Мы представляем TPTT (Transforming Pretrained Transformer into Titans) — новый фреймворк для улучшения предобученных моделей Transformer с использованием эффективных механизмов линеаризованного внимания и продвинутого управления памятью. TPTT использует такие методы, как Memory as Gate (MaG) и смешанное линеаризованное внимание (LiZA). Он полностью совместим с библиотекой Hugging Face Transformers, что позволяет легко адаптировать любую каузальную LLM с помощью параметрически эффективной тонкой настройки (LoRA) без необходимости полного переобучения. Мы демонстрируем эффективность TPTT на бенчмарке MMLU с моделями, содержащими около 1 миллиарда параметров, наблюдая значительные улучшения как в эффективности, так и в точности. Например, Titans-Llama-3.2-1B достигает увеличения точности Exact Match (EM) на 20% по сравнению с базовой моделью. Статистический анализ и сравнение с современными методами подтверждают практическую масштабируемость и надежность TPTT. Код доступен по адресу https://github.com/fabienfrfr/tptt. Python-пакет можно найти на https://pypi.org/project/tptt/.
Неонатальная смертность остается тревожной реальностью для развивающихся и даже некоторых развитых стран. Согласно данным Macro Trades, во всем мире из 1000 рожденных детей умирают 26,693 младенца. Для снижения этого показателя крайне важна ранняя прогностика младенцев, находящихся в группе риска. Такой прогноз позволяет обеспечить надлежащий уход за ребенком и матерью, что помогает предотвратить раннюю детскую смертность. В данном контексте для определения риска для новорожденного использовались методы машинного обучения. Для обучения прогностической модели были использованы исторические данные о 1,4 миллиона новорожденных. Методы машинного и глубокого обучения, такие как логистическая регрессия, метод k-ближайших соседей, классификатор случайного леса, экстремальное градиентное бустирование (XGBoost), сверточные нейронные сети и долгосрочная краткосрочная память (LSTM), были применены к этому набору данных для выявления наиболее точной модели прогнозирования неонатальной смертности. Среди алгоритмов машинного обучения XGBoost и классификатор случайного леса показали наилучшую точность — 94%, в то время как среди моделей глубокого обучения LSTM достигла наивысшей точности — 99%. Таким образом, использование LSTM представляется наиболее подходящим подходом для прогнозирования необходимости принятия профилактических мер для ребенка.
Несмотря на недавние успехи в генерации аппаратного кода на уровне регистровых передач (RTL) с использованием языковых моделей (LLM), существующие решения по-прежнему сталкиваются с существенным разрывом между практическими сценариями применения и требованиями реальной разработки RTL-кода. Предыдущие подходы либо сосредоточены на чрезмерно упрощенных описаниях аппаратного обеспечения, либо зависят от обширного человеческого руководства для обработки сложных спецификаций, что ограничивает их масштабируемость и потенциал автоматизации. В данной статье мы устраняем этот разрыв, предлагая систему агентов на основе LLM, названную Spec2RTL-Agent, которая предназначена для непосредственной обработки сложной документации спецификаций и генерации соответствующих реализаций RTL-кода, продвигая генерацию RTL-кода на основе LLM к более реалистичным условиям применения. Для достижения этой цели Spec2RTL-Agent представляет новую структуру многозадачного взаимодействия, которая интегрирует три ключевых компонента: (1) модуль рассуждения и понимания, который преобразует спецификации в структурированные пошаговые планы реализации; (2) модуль прогрессивного кодирования и оптимизации запросов, который итеративно улучшает код на нескольких уровнях представления для повышения корректности и синтезируемости при преобразовании в RTL; и (3) адаптивный модуль рефлексии, который выявляет и отслеживает источники ошибок в процессе генерации, обеспечивая более надежный процесс создания кода. Вместо прямой генерации RTL из естественного языка наша система стратегически генерирует синтезируемый код на C++, который затем оптимизируется для высокоуровневого синтеза (HLS). Такой подход, основанный на агентах, обеспечивает большую корректность и совместимость по сравнению с наивными методами прямой генерации RTL. Мы оцениваем Spec2RTL-Agent на трех документах спецификаций, демонстрируя, что она генерирует точный RTL-код с до 75% меньшим количеством человеческих вмешательств, чем существующие методы. Это подчеркивает ее роль как первой полностью автоматизированной многозадачной системы для генерации RTL из неструктурированных спецификаций, снижая зависимость от человеческих усилий в проектировании аппаратного обеспечения.