Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Автокодировщик "Зрение-Язык-Зрение": Масштабируемое извлечение знаний из моделей диффузии
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Jul 9, 2025

Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao

341

Создание современных моделей Vision-Language (VLMs) с мощными возможностями генерации подписей обычно требует обучения на миллиардах высококачественных пар изображение-текст, что занимает миллионы часов работы GPU. В данной статье представлена структура Vision-Language-Vision (VLV) автокодировщика, которая стратегически использует ключевые предобученные компоненты: визуальный кодировщик, декодер модели Text-to-Image (T2I) диффузии и, впоследствии, крупную языковую модель (LLM). В частности, мы создаем информационное узкое место, регулируя пространство языковых представлений, что достигается за счет заморозки предобученного декодера T2I диффузии. Наш VLV конвейер эффективно извлекает знания из текстово-обусловленной диффузионной модели с использованием непрерывных эмбеддингов, демонстрируя полное семантическое понимание через высококачественные реконструкции. Кроме того, путем тонкой настройки предобученной LLM для декодирования промежуточных языковых представлений в детальные описания, мы создаем современный генератор подписей, сопоставимый с ведущими моделями, такими как GPT-4o и Gemini 2.0 Flash. Наш метод демонстрирует исключительную экономическую эффективность и значительно снижает требования к данным; за счет преимущественного использования одномодальных изображений для обучения и максимального использования существующих предобученных моделей (визуальный кодировщик, T2I диффузионная модель и LLM), он позволяет избежать необходимости в огромных наборах пар изображение-текст, сохраняя общие затраты на обучение ниже 1000 долларов США.

EXAONE 4.0: Унифицированные крупные языковые модели, объединяющие нерассуждающие и рассуждающие режимы
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Jul 15, 2025

LG AI Research, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Yemuk Choi, Kyubeen Han, Seokhee Hong, Junwon Hwang, Taewan Hwang, Joonwon Jang, Hyojin Jeon, Kijeong Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Euisoon Kim, Hyosang Kim, Jihoon Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Gwangho Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Sangha Park, Young Min Paik, Yongmin Park, Youngyong Park, Sanghyun Seo, Sihoon Yang, Heuiyeen Yeen, Sihyuk Yi, Hyeongu Yun

322

В данном техническом отчете представлена система EXAONE 4.0, которая объединяет режим без рассуждений (Non-reasoning mode) и режим с рассуждениями (Reasoning mode), чтобы сохранить превосходную удобство использования EXAONE 3.5 и расширенные возможности логического анализа EXAONE Deep. В рамках подготовки к эре агентного ИИ, EXAONE 4.0 включает ключевые функции, такие как использование агентных инструментов, а также расширяет свои мультиязычные возможности, добавляя поддержку испанского языка к уже существующим английскому и корейскому. Серия моделей EXAONE 4.0 представлена в двух размерах: средняя модель на 32 миллиарда параметров, оптимизированная для высокой производительности, и компактная модель на 1,2 миллиарда параметров, предназначенная для использования на устройствах. EXAONE 4.0 демонстрирует превосходную производительность по сравнению с открытыми моделями своего класса и остается конкурентоспособной даже на фоне передовых моделей. Модели доступны для исследовательских целей и могут быть легко загружены по адресу https://huggingface.co/LGAI-EXAONE.

Законы масштабирования для оптимальных смесей данных
Scaling Laws for Optimal Data Mixtures

Jul 12, 2025

Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin

251

Крупные базовые модели обычно обучаются на данных из нескольких областей, при этом смесь данных — пропорция использования каждой области — играет критическую роль в производительности модели. Стандартный подход к выбору этой смеси основывается на методе проб и ошибок, что становится непрактичным для крупномасштабного предварительного обучения. Мы предлагаем систематический метод определения оптимальной смеси данных для любой целевой области с использованием законов масштабирования. Наш подход точно предсказывает потери модели размером N, обученной на D токенах с определенным вектором весов областей h. Мы подтверждаем универсальность этих законов масштабирования, демонстрируя их предсказательную силу в трех различных и крупномасштабных контекстах: предварительное обучение крупных языковых моделей (LLM), нативных мультимодальных моделей (NMM) и крупных моделей компьютерного зрения (LVM). Мы также показываем, что эти законы масштабирования могут экстраполироваться на новые смеси данных и масштабы: их параметры могут быть точно оценены с помощью нескольких небольших обучающих прогонов и использованы для оценки производительности на более крупных масштабах и неизвестных весах областей. Законы масштабирования позволяют вывести оптимальные веса областей для любой целевой области при заданном бюджете обучения (N, D), предоставляя принципиальную альтернативу затратным методам проб и ошибок.

Могут ли мультимодальные базовые модели понимать схематические диаграммы? Эмпирическое исследование вопросно-ответных систем для поиска информации в научных статьях
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Jul 14, 2025

Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan

101

В данной статье представлен MISS-QA — первый бенчмарк, специально разработанный для оценки способности моделей интерпретировать схематические диаграммы в научной литературе. MISS-QA включает 1500 примеров, аннотированных экспертами, из 465 научных статей. В рамках этого бенчмарка модели должны интерпретировать схематические диаграммы, иллюстрирующие обзор исследований, и отвечать на соответствующие информационные вопросы, основываясь на более широком контексте статьи. Мы оцениваем производительность 18 передовых мультимодальных базовых моделей, включая o4-mini, Gemini-2.5-Flash и Qwen2.5-VL. Результаты показывают значительный разрыв в производительности между этими моделями и экспертами-людьми на MISS-QA. Наш анализ производительности моделей на неответимых вопросах и детальный анализ ошибок дополнительно подчеркивают сильные и слабые стороны современных моделей, предлагая ключевые идеи для улучшения их способности понимать мультимодальную научную литературу.

AgentsNet: Координация и совместное рассуждение в многоагентных языковых моделях
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Jul 11, 2025

Florian Grötschla, Luis Müller, Jan Tönshoff, Mikhail Galkin, Bryan Perozzi

Крупные языковые модели (LLM) продемонстрировали мощные способности к решению задач, особенно при организации в многоагентные системы. Однако появление таких систем также поднимает ряд вопросов о способности сложной сети агентов эффективно самоорганизовываться и сотрудничать. Хотя измерение производительности на стандартных тестах логического мышления показывает, насколько хорошо многоагентные системы могут решать задачи, остается неясным, способны ли эти системы эффективно использовать свою топологию. В данной работе мы предлагаем AgentsNet — новый эталонный тест для оценки логического мышления в многоагентных системах. Вдохновляясь классическими задачами из области распределенных систем и теории графов, AgentsNet измеряет способность многоагентных систем совместно формировать стратегии для решения задач, самоорганизации и эффективной коммуникации с учетом заданной топологии сети. Мы оцениваем различные базовые методы на AgentsNet, включая однородные сети агентов, которые сначала должны договориться о базовых протоколах организации и коммуникации. Мы обнаруживаем, что некоторые передовые LLM уже демонстрируют высокую производительность для небольших сетей, но начинают отставать при увеличении масштаба сети. В то время как существующие эталонные тесты для многоагентных систем охватывают не более 2–5 агентов, AgentsNet практически не ограничен по размеру и может масштабироваться вместе с новыми поколениями LLM. В связи с этим мы также исследуем передовые модели в конфигурации с числом агентов до 100.

OpenCodeReasoning-II: Простой подход к масштабированию во время тестирования через самооценку
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Jul 11, 2025

Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg

Последние достижения в области крупных языковых моделей (LLM), основанных на рассуждениях, особенно их потенциал благодаря масштабированию во время тестирования, создали значительные возможности для дистилляции в генерации и критике кода. Однако прогресс в обеих областях фундаментально зависит от крупномасштабных, высококачественных наборов данных. В данной работе мы представляем OpenCodeReasoning-II — набор данных, состоящий из 2,5 миллионов троек "вопрос-решение-критика" (примерно 35 тысяч уникальных задач по программированию), что делает его почти в два раза больше, чем предыдущий крупнейший публично доступный набор данных для рассуждений о коде. В этой работе мы применяем двухэтапную стратегию контролируемого тонкого настройки. Первый этап сосредоточен на тонкой настройке для генерации кода, а второй этап включает совместное обучение моделей как для генерации, так и для критики кода. Наши итоговые модели Qwen2.5-Instruct, прошедшие тонкую настройку, демонстрируют производительность в генерации кода, которая либо превосходит, либо равна лучшим ранее доступным моделям с открытыми весами. Примечательно, что интеграция наших моделей генерации и критики кода приводит к значительному улучшению производительности в соревновательном программировании. Кроме того, мы представляем расширение бенчмарка LiveCodeBench для поддержки языка программирования C++, что способствует более всесторонней оценке LLM с использованием этого бенчмарка.

Укрощение генеративных моделей видео для извлечения оптического потока в условиях нулевого сэмплирования
Taming generative video models for zero-shot optical flow extraction

Jul 11, 2025

Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins

Извлечение оптического потока из видео остается ключевой задачей компьютерного зрения. Вдохновленные успехом крупных универсальных моделей, мы задаемся вопросом, можно ли заставить замороженные самоконтролируемые видео-модели, обученные только для предсказания будущих кадров, без тонкой настройки выдавать оптический поток. Предыдущие работы, извлекающие глубину или освещение из видео-генераторов, требовали тонкой настройки, что непрактично для оптического потока, где метки редки, а синтетические наборы данных страдают от разрыва между синтетикой и реальностью. Вдохновленные парадигмой Контрфактуальной Мировой Модели (CWM), которая может получать точечные соответствия, вводя небольшое трассирующее возмущение в предсказатель следующего кадра и отслеживая его распространение, мы расширяем эту идею на генеративные видео-модели. Мы исследуем несколько популярных архитектур и обнаруживаем, что успешное извлечение оптического потока без обучения в таком подходе поддерживается тремя свойствами модели: (1) распределенное предсказание будущих кадров (избегание размытых или зашумленных выходов); (2) факторизованные латентные переменные, которые обрабатывают каждый пространственно-временной патч независимо; и (3) декодирование с произвольным доступом, которое может учитывать любое подмножество будущих пикселей. Эти свойства уникально присутствуют в недавней архитектуре Local Random Access Sequence (LRAS). На основе LRAS мы предлагаем KL-tracing: новый процедурный метод на этапе тестирования, который вводит локализованное возмущение в первый кадр, разворачивает модель на один шаг и вычисляет расхождение Кульбака-Лейблера между возмущенным и невозмущенным предсказательными распределениями. Без какой-либо специфической тонкой настройки для оптического потока наш метод превосходит современные модели на реальном наборе данных TAP-Vid DAVIS (относительное улучшение ошибки конечной точки на 16,6%) и синтетическом TAP-Vid Kubric (относительное улучшение на 4,7%). Наши результаты показывают, что контрфактуальное управление управляемыми генеративными видео-моделями является масштабируемой и эффективной альтернативой подходам с использованием обучения с учителем или фотометрических потерь для получения высококачественного оптического потока.

BYOKG-RAG: Многостратегическое извлечение данных из графов для ответов на вопросы по графам знаний
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

Jul 5, 2025

Costas Mavromatis, Soji Adeshina, Vassilis N. Ioannidis, Zhen Han, Qi Zhu, Ian Robinson, Bryan Thompson, Huzefa Rangwala, George Karypis

Ответы на вопросы по графам знаний (KGQA) представляют значительные трудности из-за структурных и семантических вариаций во входных графах. Существующие подходы полагаются на агентов, основанных на больших языковых моделях (LLM), для обхода графов и извлечения данных; такой метод чувствителен к инициализации обхода, так как он подвержен ошибкам связывания сущностей и может плохо обобщаться на пользовательские ("bring-your-own") графы знаний. Мы представляем BYOKG-RAG — фреймворк, который улучшает KGQA за счет синергетического сочетания LLM со специализированными инструментами для извлечения данных из графов. В BYOKG-RAG LLM генерируют ключевые артефакты графа (сущности вопросов, кандидаты на ответы, пути рассуждений и запросы на языке OpenCypher), а инструменты для работы с графами связывают эти артефакты с графом знаний и извлекают соответствующий контекст. Извлеченный контекст позволяет LLM итеративно уточнять связывание и извлечение данных из графа перед генерацией окончательного ответа. Благодаря извлечению контекста с использованием различных инструментов для работы с графами, BYOKG-RAG предлагает более универсальное и устойчивое решение для ответов на вопросы по пользовательским графам знаний. В экспериментах на пяти бенчмарках, охватывающих различные типы графов знаний, мы демонстрируем, что BYOKG-RAG превосходит второй лучший метод извлечения данных из графов на 4,5 процентных пункта, показывая при этом лучшее обобщение на пользовательские графы знаний. Фреймворк BYOKG-RAG доступен в открытом исходном коде по адресу https://github.com/awslabs/graphrag-toolkit.

Токен-ориентированное восстановление аудио с использованием дискретной диффузии
Token-based Audio Inpainting via Discrete Diffusion

Jul 11, 2025

Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani

Аудио-инпейнтинг (audio inpainting) — это задача восстановления отсутствующих сегментов в поврежденных аудиозаписях. Хотя предыдущие подходы, включая диффузионные модели, основанные на временных и спектрограммных представлениях, показали многообещающие результаты для коротких пропусков, их качество часто ухудшается, когда длина пропусков превышает 100 миллисекунд (мс). В данной работе мы представляем новый метод инпейнтинга, основанный на дискретной диффузионной модели, которая работает с токенизированными аудиопредставлениями, созданными предварительно обученным аудиотокенизатором. Наш подход моделирует генеративный процесс непосредственно в дискретном латентном пространстве, что позволяет стабильно и семантически согласованно восстанавливать отсутствующие аудиоданные. Мы оцениваем метод на наборе данных MusicNet, используя как объективные, так и перцептивные метрики для пропусков длиной до 300 мс. Дополнительно мы протестировали наш подход на наборе данных MTG, увеличив длину пропусков до 500 мс. Экспериментальные результаты показывают, что наш метод демонстрирует конкурентоспособное или превосходящее качество по сравнению с существующими базовыми подходами, особенно для более длинных пропусков, предлагая надежное решение для восстановления поврежденных музыкальных записей. Аудиопримеры нашего метода доступны по ссылке: https://iftach21.github.io/.

LLMalMorph: О возможности генерации вариантов вредоносного ПО с использованием крупных языковых моделей
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

Jul 12, 2025

Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino

Крупные языковые модели (LLM) произвели революцию в разработке программного обеспечения и автоматической генерации кода. Вдохновленные этими достижениями, в данной статье исследуется возможность использования LLM для модификации исходного кода вредоносных программ с целью создания их вариантов. Мы представляем LLMalMorph, полуавтоматическую платформу, которая использует семантическое и синтаксическое понимание кода LLM для генерации новых вариантов вредоносного ПО. LLMalMorph извлекает информацию на уровне функций из исходного кода вредоносного ПО и применяет специально разработанные запросы в сочетании с стратегически определенными преобразованиями кода, чтобы направлять LLM в создании вариантов без необходимости ресурсоемкой тонкой настройки. Для оценки LLMalMorph мы собрали 10 разнообразных образцов вредоносного ПО для Windows, различающихся по типу, сложности и функциональности, и сгенерировали 618 вариантов. Наши тщательные эксперименты показывают, что возможно в некоторой степени снизить уровень обнаружения этих вариантов антивирусными движками, сохраняя при этом функциональность вредоносного ПО. Кроме того, несмотря на отсутствие оптимизации против машинного обучения (ML)-детекторов вредоносного ПО, несколько вариантов также достигли заметного уровня успеха атаки против ML-классификатора вредоносного ПО. Мы также обсуждаем ограничения текущих возможностей LLM в генерации вариантов вредоносного ПО из исходного кода и оцениваем, где эта новая технология находится в более широком контексте генерации вариантов вредоносного ПО.

Заложенное в предобучении, измененное тонкой настройкой: пример исследования происхождения когнитивных искажений в больших языковых моделях
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

Jul 9, 2025

Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky

Крупные языковые модели (LLM) демонстрируют когнитивные искажения — систематические тенденции к иррациональному принятию решений, аналогичные тем, что наблюдаются у людей. Предыдущие исследования показали, что эти искажения варьируются между моделями и могут усиливаться в процессе настройки на инструкции. Однако до сих пор неясно, обусловлены ли эти различия в искажениях предварительным обучением, донастройкой или даже случайным шумом из-за стохастичности обучения. Мы предлагаем двухэтапный причинно-следственный экспериментальный подход для разделения этих факторов. Сначала мы донастраиваем модели несколько раз с использованием разных случайных начальных значений, чтобы изучить, как случайность обучения влияет на более чем 30 когнитивных искажений. Затем мы вводим кросс-настройку — замену наборов данных для инструкций между моделями, чтобы изолировать источники искажений. Эта замена использует наборы данных, которые привели к различным паттернам искажений, напрямую проверяя, зависят ли искажения от данных. Наши результаты показывают, что, хотя случайность обучения вносит некоторую вариативность, искажения в основном формируются на этапе предварительного обучения: модели с одинаковой предварительно обученной основой демонстрируют более схожие паттерны искажений, чем те, которые используют только общие данные для донастройки. Эти выводы свидетельствуют о том, что понимание искажений в донастроенных моделях требует учета их происхождения на этапе предварительного обучения, выходящего за рамки эффектов донастройки. Этот подход может помочь в разработке принципиальных стратегий для оценки и смягчения искажений в LLM.

Доверие между Оркестратором и Агентом: Модульная агентная система визуальной классификации ИИ с доверительно-ориентированной оркестрацией и рассуждениями на основе RAG
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

Jul 9, 2025

Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas

Современный искусственный интеллект (ИИ) всё чаще опирается на многоагентные архитектуры, объединяющие визуальное и языковое понимание. Однако остаётся актуальный вопрос: как можно доверять этим агентам, особенно в условиях zero-shot, без тонкой настройки? Мы представляем новую модульную фреймворк для визуальной классификации на основе агентного ИИ, который интегрирует универсальных мультимодальных агентов с оркестратором, выполняющим невизуальное рассуждение, и модулем Retrieval-Augmented Generation (RAG). Применяя этот подход к диагностике заболеваний листьев яблони, мы тестируем три конфигурации: (I) zero-shot с оркестрацией на основе уверенности, (II) тонко настроенные агенты с улучшенной производительностью и (III) оркестрация с калибровкой доверия, усиленная поиском изображений на основе CLIP и циклами переоценки. Используя метрики калибровки уверенности (ECE, OCR, CCC), оркестратор регулирует доверие между агентами. Наши результаты показывают улучшение точности на 77,94% в условиях zero-shot при использовании оркестрации с учётом доверия и RAG, достигая общей точности 85,63%. GPT-4o продемонстрировал лучшую калибровку, в то время как Qwen-2.5-VL показал излишнюю уверенность. Кроме того, прогнозы, основанные на image-RAG, были подкреплены визуально схожими случаями, что позволило исправить излишнюю уверенность агентов через итеративную переоценку. Предложенная система разделяет восприятие (визуальные агенты) и мета-рассуждения (оркестратор), обеспечивая масштабируемый и интерпретируемый многоагентный ИИ. Этот подход может быть расширен для диагностики, биологии и других областей, где критически важно доверие. Все модели, промпты, результаты и компоненты системы, включая полный исходный код программного обеспечения, открыто опубликованы для поддержки воспроизводимости, прозрачности и сравнительного анализа сообществом на GitHub: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.

UGC-VideoCaptioner: Универсальная модель детализированного описания пользовательского видеоконтента и новые эталонные тесты
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Jul 15, 2025

Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen

Пользовательские видео из реального мира, особенно на таких платформах, как TikTok, часто содержат богатый и взаимосвязанный аудиовизуальный контент. Однако существующие эталонные наборы данных и модели для создания видеозаголовков остаются преимущественно визуально-ориентированными, игнорируя ключевую роль аудио в передаче динамики сцены, намерений говорящего и контекста повествования. Отсутствие всеобъемлющих наборов данных и легковесных, но мощных моделей сдерживает прогресс в детализированном многомодальном понимании видео. Для решения этих проблем мы представляем UGC-VideoCap — новый эталонный набор данных и модель, специально разработанные для детального всеобъемлющего создания заголовков для коротких пользовательских видео. В отличие от предыдущих наборов данных, UGC-VideoCap делает акцент на сбалансированной интеграции аудио и визуальных модальностей, включая 1000 видео с TikTok, аннотированных с помощью структурированного трехэтапного процесса с участием человека, охватывающего семантику только аудио, только визуального контента и их совместного анализа. Набор данных также включает 4000 тщательно составленных пар вопросов и ответов, проверяющих как одномодальное, так и кросс-модальное понимание. Вместе с набором данных мы предлагаем UGC-VideoCaptioner(3B) — модель для создания заголовков с 3 миллиардами параметров, дистиллированную из Gemini 2.5 Flash. Используя новую двухэтапную стратегию обучения — контролируемую тонкую настройку с последующей оптимизацией групповой относительной политики (GRPO), наш подход позволяет эффективно адаптироваться к ограниченным данным, сохраняя при этом конкурентоспособную производительность. Вместе наш эталонный набор данных и модель предлагают качественную основу и ресурсоэффективное решение для продвижения всеобъемлющего создания видеозаголовков в неограниченных условиях реального пользовательского контента.

Укрощение генеративных моделей видео для извлечения оптического потока в условиях нулевого сэмплирования
Taming generative video models for zero-shot optical flow extraction

Jul 11, 2025

Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins

Ежедневные статьи

Автокодировщик "Зрение-Язык-Зрение": Масштабируемое извлечение знаний из моделей диффузии
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

EXAONE 4.0: Унифицированные крупные языковые модели, объединяющие нерассуждающие и рассуждающие режимы
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Законы масштабирования для оптимальных смесей данных
Scaling Laws for Optimal Data Mixtures

AgentsNet: Координация и совместное рассуждение в многоагентных языковых моделях
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

OpenCodeReasoning-II: Простой подход к масштабированию во время тестирования через самооценку
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Укрощение генеративных моделей видео для извлечения оптического потока в условиях нулевого сэмплирования
Taming generative video models for zero-shot optical flow extraction

BYOKG-RAG: Многостратегическое извлечение данных из графов для ответов на вопросы по графам знаний
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

Токен-ориентированное восстановление аудио с использованием дискретной диффузии
Token-based Audio Inpainting via Discrete Diffusion

LLMalMorph: О возможности генерации вариантов вредоносного ПО с использованием крупных языковых моделей
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

UGC-VideoCaptioner: Универсальная модель детализированного описания пользовательского видеоконтента и новые эталонные тесты
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Support

Support

Ежедневные статьи

Автокодировщик "Зрение-Язык-Зрение": Масштабируемое извлечение знаний из моделей диффузии
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

EXAONE 4.0: Унифицированные крупные языковые модели, объединяющие нерассуждающие и рассуждающие режимы
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Законы масштабирования для оптимальных смесей данных
Scaling Laws for Optimal Data Mixtures

AgentsNet: Координация и совместное рассуждение в многоагентных языковых моделях
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

OpenCodeReasoning-II: Простой подход к масштабированию во время тестирования через самооценку
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Укрощение генеративных моделей видео для извлечения оптического потока в условиях нулевого сэмплирования
Taming generative video models for zero-shot optical flow extraction

BYOKG-RAG: Многостратегическое извлечение данных из графов для ответов на вопросы по графам знаний
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

Токен-ориентированное восстановление аудио с использованием дискретной диффузии
Token-based Audio Inpainting via Discrete Diffusion

LLMalMorph: О возможности генерации вариантов вредоносного ПО с использованием крупных языковых моделей
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

UGC-VideoCaptioner: Универсальная модель детализированного описания пользовательского видеоконтента и новые эталонные тесты
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks