HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

TiDAR: Думай в диффузии, говори в авторегрессии
TiDAR: Think in Diffusion, Talk in Autoregression

Nov 12

ByJingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov

108

Диффузионные языковые модели обещают быструю параллельную генерацию, в то время как авторегрессионные (AR) модели обычно превосходят по качеству благодаря своей причинной структуре, которая естественным образом согласуется с моделированием языка. Это поднимает фундаментальный вопрос: можем ли мы достичь синергии с высокой пропускной способностью, повышенной загрузкой GPU и качеством на уровне AR моделей? Существующие методы не позволяют эффективно сбалансировать эти два аспекта: либо они отдают приоритет AR, используя более слабую модель для последовательного чернового генерирования (спекулятивное декодирование), что приводит к низкой эффективности черновиков, либо используют некоторую форму логики декодирования слева направо (подобную AR) для диффузии, что все еще страдает от снижения качества и теряет потенциальную распараллеливаемость. Мы представляем TiDAR — гибридную архитектуру на уровне последовательности, которая создает черновики токенов (Thinking) с помощью диффузии и финализирует выходные данные (Talking) авторегрессионно — все за один прямой проход с использованием специально разработанных структурированных масок внимания. Эта конструкция использует свободную вычислительную плотность GPU, достигая сильного баланса между способностью к черновому генерированию и верификации. Более того, TiDAR разработан как автономная модель, удобная для развертывания (с низкими накладными расходами). Мы всесторонне сравниваем TiDAR с AR моделями, спекулятивным декодированием и вариантами диффузионных моделей на задачах генерации и правдоподобия для масштабов 1.5B и 8B параметров. Благодаря параллельному созданию черновиков и семплированию, а также поддержке точного KV-кэша, TiDAR превосходит спекулятивное декодирование по измеренной пропускной способности и превосходит диффузионные модели, такие как Dream и Llada, как по эффективности, так и по качеству. Что наиболее важно, TiDAR является первой архитектурой, которая сокращает разрыв в качестве с AR моделями, при этом обеспечивая генерацию от 4.71x до 5.91x больше токенов в секунду.

Lumine: Открытый рецепт создания универсальных агентов в трехмерных открытых мирах
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Nov 12

ByWeihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi

Мы представляем Lumine — первый открытый рецепт для разработки универсальных агентов, способных выполнять многочасовые сложные миссии в реальном времени в сложных 3D-мирах с открытым миром. Lumine использует парадигму взаимодействия, подобную человеческой, которая объединяет восприятие, рассуждение и действие в сквозной манере, основанной на модели обработки визуальной и языковой информации. Система обрабатывает сырые пиксели с частотой 5 Гц для генерации точных действий с клавиатурой и мышью на частоте 30 Гц и адаптивно запускает процесс рассуждения только при необходимости. Обучаясь в Genshin Impact, Lumine успешно завершает всю пятичасовую основную сюжетную линию Мондштадта с эффективностью, сопоставимой с человеческой, и выполняет широкий спектр задач, следуя инструкциям на естественном языке, как в 3D-исследовании открытого мира, так и в 2D-управлении графическим интерфейсом, включая сбор ресурсов, боевые действия, решение головоломок и взаимодействие с NPC. Помимо высокой производительности в рамках своей области, Lumine демонстрирует сильную способность к обобщению в условиях нулевого переноса между играми. Без какой-либо дополнительной настройки она выполняет 100-минутные миссии в Wuthering Waves и завершает полную пятичасовую первую главу Honkai: Star Rail. Эти многообещающие результаты подчеркивают эффективность Lumine в различных мирах и динамиках взаимодействия, что является важным шагом на пути к созданию универсальных агентов в открытых средах.

MADD: Оркестр мультиагентного открытия лекарств
MADD: Multi-Agent Drug Discovery Orchestra

Nov 11

ByGleb V. Solovev, Alina B. Zhidkovskaya, Anastasia Orlova, Nina Gubina, Anastasia Vepreva, Rodion Golovinskii, Ilya Tonkii, Ivan Dubrovsky, Ivan Gurev, Dmitry Gilemkhanov, Denis Chistiakov, Timur A. Aliev, Ivan Poddiakov, Galina Zubkova, Ekaterina V. Skorb, Vladimir Vinogradov, Alexander Boukhanovsky, Nikolay Nikitin, Andrei Dmitrenko, Anna Kalyuzhnaya, Andrey Savchenko

Идентификация лидов (хитовых соединений) является ключевой задачей на ранних этапах разработки лекарств, традиционно требующей значительных экспериментальных ресурсов. Недавние достижения в области искусственного интеллекта, в частности больших языковых моделей (LLM), позволили создать методы виртуального скрининга, снижающие затраты и повышающие эффективность. Однако растущая сложность этих инструментов ограничила их доступность для исследователей, работающих в "мокрых" лабораториях. Мульти-агентные системы предлагают перспективное решение, сочетая интерпретируемость LLM с точностью специализированных моделей и инструментов. В данной работе мы представляем MADD — мульти-агентную систему, которая строит и выполняет настроенные конвейеры идентификации лидов на основе запросов на естественном языке. MADD использует четыре скоординированных агента для выполнения ключевых подзадач в области генерации de novo соединений и их скрининга. Мы оцениваем MADD на семи примерах из области разработки лекарств и демонстрируем его превосходную производительность по сравнению с существующими решениями на основе LLM. С помощью MADD мы впервые применяем подход AI-first к дизайну лекарств для пяти биологических мишеней и публикуем идентифицированные лид-молекулы. Наконец, мы представляем новый бенчмарк, содержащий пары "запрос-молекула" и результаты докинга для более чем трех миллионов соединений, чтобы внести вклад в агентное будущее дизайна лекарств.

Время-двигаться: Управляемое движением генерация видео без обучения с помощью двойного часового шумоподавления
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Nov 9

ByAssaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany

Генерация видео на основе диффузионных моделей позволяет создавать реалистичные видеоролики, однако существующие методы кондиционирования на основе изображений и текста не обеспечивают точного управления движением. Предыдущие подходы к синтезу с контролем движения обычно требовали дообучения конкретной модели, что вычислительно затратно и ограничительно. Мы представляем Time-to-Move (TTM) — бесплатную, готовую к использованию платформу для генерации видео с контролем движения и внешнего вида на основе моделей диффузии для преобразования изображения в видео (I2V). Ключевая идея нашего метода заключается в использовании грубых референсных анимаций, полученных с помощью удобных манипуляций, таких как перетаскивание фрагментов или репроекция на основе глубины. Вдохновленные применением SDEdit для редактирования изображений с использованием грубых layout-подсказок, мы рассматриваем crude-анимации как coarse-подсказки движения и адаптируем этот механизм для видео. Мы сохраняем внешний вид с помощью кондиционирования на изображение и вводим двойное шумоподавление по времени — регионно-зависимую стратегию, которая обеспечивает строгое соответствие в областях, заданных для движения, сохраняя гибкость в остальных зонах, балансируя между точностью следования пользовательскому замыслу и естественностью динамики. Эта легковесная модификация процесса сэмплинга не требует дополнительного обучения или вычислительных затрат при выполнении и совместима с любой базовой архитектурой. Многочисленные эксперименты на бенчмарках для движения объектов и камеры показывают, что TTM превосходит или соответствует существующим обученным базовым методам по реалистичности и контролю движения. Кроме того, TTM предоставляет уникальную возможность: точный контроль внешнего вида через пиксельное кондиционирование, выходя за пределы ограничений текстовых промптов. Видео примеры и код доступны на странице проекта: https://time-to-move.github.io/.

Технический отчет по модели Motif 2 12.7B
Motif 2 12.7B technical report

Nov 7

ByJunghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon

Мы представляем Motif-2-12.7B — новую модель с открытыми весами, которая расширяет границы эффективности больших языковых моделей за счёт сочетания архитектурных инноваций и системной оптимизации. Разработанная для масштабируемого понимания языка и устойчивого обобщения инструкций при ограниченных вычислительных ресурсах, модель Motif-2-12.7B основана на архитектуре Motif-2.6B с интеграцией группового дифференциального внимания (GDA), которое повышает репрезентативную эффективность за счёт разделения путей внимания для обработки сигнала и управления шумом. Модель предварительно обучалась на 5,5 триллионах токенов из различных лингвистических, математических, научных и программных доменов с использованием планировщика данных на основе учебного плана, который постепенно меняет соотношение композиции данных. Тренировочная система использует оптимизатор MuonClip вместе с высокопроизводительными ядрами, включая сплавленные активации PolyNorm и алгоритм Parallel Muon, что обеспечивает значительный прирост пропускной способности и эффективности использования памяти в крупномасштабных распределённых средах. Пост-тренинг включает трёхэтапный конвейер обучения с учителем, который последовательно улучшает следование общим инструкциям, композиционное понимание и лингвистическую точность. Motif-2-12.7B демонстрирует конкурентоспособные результаты в различных бенчмарках, показывая, что продуманное масштабирование архитектуры и оптимизированный дизайн обучения могут соперничать с возможностями значительно более крупных моделей.

LoopTool: Замыкание цикла данных и обучения для надежных вызовов инструментов в больших языковых моделях
LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Nov 12

ByKangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, Lei Zhang, Yong Yu

Расширение возможностей больших языковых моделей (LLM) за счет подключения внешних инструментов позволяет им выполнять сложные многошаговые задачи. Однако обучение работе с инструментами затрудняется статичными синтетическими конвейерами данных, в которых генерация данных и обучение модели выполняются как два раздельных, невзаимодействующих процесса. Такой подход не позволяет адаптивно фокусироваться на конкретных слабых местах модели и допускает сохранение зашумленных меток, что снижает эффективность обучения. Мы представляем LoopTool — полностью автоматизированную framework эволюции данных, учитывающую особенности модели, которая замыкает этот цикл за счет тесной интеграции синтеза данных и обучения модели. LoopTool итеративно улучшает как данные, так и модель с помощью трех синергетических модулей: (1) Жадно-поисковое зондирование возможностей (GCP) диагностирует освоенные и проблемные навыки модели; (2) Проверка меток с управляющим суждением (JGLV) использует открытую модель-арбитр для поиска и исправления ошибок аннотации, постепенно очищая набор данных; и (3) Ошибко-ориентированное расширение данных (EDDE) генерирует новые сложные примеры на основе выявленных неудач. Этот замкнутый цикл функционирует в рамках экономичной экосистемы с открытым исходным кодом, устраняя зависимость от дорогостоящих закрытых API. Эксперименты показывают, что наша 8-миллиардная модель, обученная с помощью LoopTool, значительно превосходит свой 32-миллиардный генератор данных и устанавливает новые рекорды на benchmarks BFCL-v3 и ACEBench для своего масштаба. Наша работа демонстрирует, что замкнутые, самоусовершенствующиеся конвейеры данных могут кардинально улучшить способности LLM к использованию инструментов.

WMPO: Оптимизация политики на основе моделей мира для моделей «зрение-язык-действие»
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Nov 12

ByFangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo

Модели Vision-Language-Action (VLA) продемонстрировали значительный потенциал для универсальной роботизированной манипуляции, однако их зависимость от экспертных демонстраций ограничивает способность обучаться на ошибках и выполнять самокоррекцию. Обучение с подкреплением (RL) решает эти проблемы за счет самоулучшающегося взаимодействия с физической средой, но страдает от высокой вычислительной сложности на реальных роботах. Мы представляем World-Model-based Policy Optimization (WMPO) — принципиальную框架 для VLA RL с он-политикой без взаимодействия с реальной средой. В отличие от широко используемых латентных мировых моделей, WMPO фокусируется на пиксельных предсказаниях, которые согласуют «воображаемые» траектории с признаками VLA, предварительно обученными на веб-масштабных изображениях. Ключевым является то, что WMPO позволяет политике выполнять он-политику GRPO, которая обеспечивает более высокую производительность по сравнению с часто используемыми методами офф-политики. Многочисленные эксперименты в симуляции и на реальном роботе показывают, что WMPO (i) существенно повышает эффективность выборки, (ii) достигает более высокой общей производительности, (iii) проявляет emergent-поведение, такое как самокоррекция, и (iv) демонстрирует robust-обобщение и способности к непрерывному обучению.

WebVIA: Веб-ориентированный агентный фреймворк для генерации кода из пользовательского интерфейса с поддержкой зрения и языка, интерактивностью и возможностью верификации
WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

Nov 9

ByMingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang

Разработка пользовательского интерфейса (UI) требует преобразования дизайн-макетов в функциональный код — процесс, который остается рутинным и трудоемким. Хотя современные Vision-Language Models (VLM) автоматизируют генерацию кода из UI, они создают лишь статические макеты на HTML/CSS/JavaScript, лишенные интерактивности. Для решения этой проблемы мы предлагаем WebVIA — первую агентную фреймворк-систему для генерации и валидации интерактивного кода из UI. Фреймворк состоит из трех компонентов: 1) агента исследования для захвата скриншотов UI в нескольких состояниях; 2) модели UI2Code, генерирующей исполняемый интерактивный код; 3) модуля валидации, проверяющего интерактивность. Эксперименты показывают, что WebVIA-Agent обеспечивает более стабильное и точное исследование UI по сравнению с универсальными агентами (например, Gemini-2.5-Pro). Кроме того, наши дообученные модели WebVIA-UI2Code демонстрируют значительное улучшение в генерации исполняемого и интерактивного кода на HTML/CSS/JavaScript, превосходя базовые версии как на интерактивных, так и на статических бенчмарках UI2Code. Наш код и модели доступны по адресу https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.

MathSE: Улучшение мультимодального математического мышления с помощью саморазвивающейся итеративной рефлексии и тонкой настройки с управлением вознаграждением
MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

Nov 10

ByJinhao Chen, Zhen Yang, Jianxin Shi, Tianyu Wo, Jie Tang

Мультимодальные большие языковые модели (MБЯМ) продемонстрировали впечатляющие способности в задачах ответов на вопросы на основе визуальной и языковой информации. Несмотря на свои сильные стороны, эти модели часто сталкиваются с трудностями при решении сложных задач, требующих рассуждений, таких как решение математических задач. Предыдущие работы были сосредоточены на дообучении на специализированных математических наборах данных. Однако эти наборы данных, как правило, напрямую дистиллируются из моделей-учителей, которые захватывают лишь статические паттерны рассуждений, что создает существенный разрыв по сравнению с моделями-учениками. Эта зависимость от фиксированных данных, полученных от учителя, не только ограничивает способность модели адаптироваться к новым или более сложным вопросам, выходящим за рамки обучающих данных, но и лишена итерационной глубины, необходимой для надежного обобщения. Чтобы преодолеть эти ограничения, мы предлагаем \method, фреймворк математического саморазвития для МБЯМ. В отличие от традиционных парадигм одноэтапного дообучения, \method итеративно улучшает модель с помощью циклов вывода, рефлексии и обратной связи на основе вознаграждения. В частности, мы используем итеративное дообучение, включая корректные пути рассуждений, полученные из вывода на предыдущем этапе, и интегрируя рефлексию от специализированной модели вознаграждения по результату (Outcome Reward Model, ORM). Для проверки эффективности \method мы оцениваем его на наборе сложных бенчмарков, демонстрируя значительное улучшение производительности по сравнению с базовыми моделями. Примечательно, что наши экспериментальные результаты на MathVL-test превосходят результаты ведущей открытой мультимодальной модели математических рассуждений QVQ. Наш код и модели доступны по адресу https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.

Адаптация веб-агентов с использованием синтетического обучения
Adapting Web Agents with Synthetic Supervision

Nov 8

ByZhaoyang Wang, Yiming Liang, Xuchao Zhang, Qianhui Wu, Siwei Han, Anson Bastos, Rujia Wang, Chetan Bansal, Baolin Peng, Jianfeng Gao, Saravan Rajmohan, Huaxiu Yao

Веб-агенты сталкиваются с трудностями при адаптации к новым веб-сайтам из-за недостатка задач и демонстраций, специфичных для конкретной среды. В последних работах исследуется генерация синтетических данных для решения этой проблемы, однако они страдают от проблем с качеством данных: синтезированные задачи содержат галлюцинации, которые невозможно выполнить, а собранные траектории зашумлены избыточными или несогласованными действиями. В данной статье мы предлагаем SynthAgent — полностью синтетическую систему управления, направленную на повышение качества синтетических данных за счет двойного уточнения как задач, так и траекторий. Наш подход начинается с синтеза разнообразных задач через категоризированное исследование веб-элементов, что обеспечивает эффективное покрытие целевой среды. В процессе сбора траекторий мы уточняем задачи при обнаружении конфликтов с реальными наблюдениями, уменьшая галлюцинации при сохранении согласованности задачи. После сбора мы проводим уточнение траекторий с учетом глобального контекста, чтобы уменьшить потенциальный шум или рассогласования. Наконец, мы дообучаем веб-агенты с открытым исходным кодом на уточненных синтетических данных, чтобы адаптировать их к целевой среде. Результаты экспериментов показывают, что SynthAgent превосходит существующие методы работы с синтетическими данными, подтверждая важность высококачественного синтетического управления. Код будет общедоступен по адресу https://github.com/aiming-lab/SynthAgent.

К рубежам надежного диффузионного сэмплирования с помощью адверсарного управления вниманием Зонхорна
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Nov 10

ByKwanyoung Kim

Диффузионные модели продемонстрировали высокую генеративную производительность при использовании методов управления, таких как классификаторно-независимое руководство (CFG), которые улучшают качество выходных данных путем модификации траектории сэмплирования. Эти методы обычно улучшают целевой выход, намеренно ухудшая другой, часто безусловный выход, с использованием эвристических функций возмущения, таких как смешение идентичности или размытые условия. Однако данным подходам не хватает принципиального обоснования, и они опираются на ручные искажения. В данной работе мы предлагаем Метод управления вниманием с использованием адверсарной сходимости Зинхорна (ASAG) — новый подход, который переосмысливает оценки внимания в диффузионных моделях через призму оптимального транспорта и намеренно нарушает транспортную стоимость с помощью алгоритма Зинхорна. Вместо наивного повреждения механизма внимания ASAG внедряет адверсарную стоимость в слои самовнимания для снижения попиксельного сходства между запросами и ключами. Это преднамеренное ухудшение ослабляет вводящие в заблуждение выравнивания внимания и приводит к улучшению качества условных и безусловных сэмплов. ASAG демонстрирует устойчивые улучшения в тексто-изобразительной диффузии и повышает управляемость и достоверность в downstream-приложениях, таких как IP-Adapter и ControlNet. Метод является легковесным, работает по принципу «включи и работай» и повышает надежность без необходимости переобучения модели.

Агентный рефакторинг: эмпирическое исследование ИИ-агентов для программирования
Agentic Refactoring: An Empirical Study of AI Coding Agents

Nov 6

ByKosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan

Инструменты агентного кодирования, такие как OpenAI Codex, Claude Code и Cursor, трансформируют ландшафт программной инженерии. Эти системы на базе ИИ функционируют как автономные члены команды, способные планировать и выполнять сложные задачи разработки. Агенты стали активными участниками рефакторинга — краеугольного камня устойчивой разработки программного обеспечения, направленного на улучшение внутреннего качества кода без изменения наблюдаемого поведения. Несмотря на растущее внедрение, существует критический недостаток эмпирического понимания того, как агентный рефакторинг используется на практике, как он соотносится с рефакторингом, выполняемым человеком, и какое влияние оказывает на качество кода. Чтобы восполнить этот эмпирический пробел, мы представляем масштабное исследование рефакторингов, сгенерированных ИИ-агентами, в реальных проектах Java с открытым исходным кодом, проанализировав 15 451 экземпляр рефакторинга в 12 256 пул-реквестах и 14 988 коммитах, полученных из набора данных AIDev. Наш эмпирический анализ показывает, что рефакторинг является распространенной и целенаправленной деятельностью в этой парадигме разработки: агенты явно нацеливаются на рефакторинг в 26,1% коммитов. Анализ типов рефакторинга reveals, что усилия агентов в основном сводятся к низкоуровневым, ориентированным на согласованность правкам, таким как изменение типа переменной (11,8%), переименование параметра (10,4%) и переименование переменной (8,5%), что отражает предпочтение локализованных улучшений по сравнению с изменениями высокоуровневого дизайна, характерными для человеческого рефакторинга. Кроме того, мотивация агентного рефакторинга подавляюще сосредоточена на внутренних аспектах качества: сопровождаемость (52,5%) и читаемость (28,1%). Более того, количественная оценка метрик качества кода показывает, что агентный рефакторинг приводит к небольшим, но статистически значимым улучшениям структурных метрик, особенно для изменений среднего уровня, уменьшая размер и сложность классов (например, медианное Δ для Class LOC = -15,25).

Борьба с галлюцинациями в языковых моделях с использованием лицензирующего оракула
Stemming Hallucination in Language Models Using a Licensing Oracle

Nov 8

BySimeon Emanuilov, Richard Ackermann

Языковые модели демонстрируют впечатляющие способности к генерации естественного языка, но остаются подвержены галлюцинациям, порождая фактически неверную информацию, несмотря на синтаксически связные ответы. В данном исследовании представлен "Верифицирующий Оракул" — архитектурное решение, предназначенное для предотвращения галлюцинаций в языковых моделях путём наложения ограничений истинности через формальную проверку по структурированным графам знаний. В отличие от статистических подходов, основанных на масштабировании данных или дообучении, "Верифицирующий Оракул" внедряет детерминированный шаг проверки в генеративный процесс модели, гарантируя, что высказываются только фактологически точные утверждения. Мы оценили эффективность "Верифицирующего Оракула" в экспериментах, сравнив его с несколькими передовыми методами, включая базовую генерацию языковой модели, дообучение на фактологическое воспроизведение, дообучение на поведение воздержания и генерацию с дополнением retrieval-augmented generation (RAG). Наши результаты показывают, что хотя RAG и дообучение улучшают производительность, они не устраняют галлюцинации полностью. В отличие от них, "Верифицирующий Оракул" достиг идеальной точности воздержания (AP = 1.0) и нулевого уровня ложных ответов (FAR-NE = 0.0), обеспечивая генерацию только валидных утверждений с точностью фактологических ответов в 89.1%. Эта работа демонстрирует, что архитектурные инновации, такие как "Верифицирующий Оракул", предлагают необходимое и достаточное решение проблемы галлюцинаций в областях со структурированными представлениями знаний, предоставляя гарантии, недостижимые для статистических методов. Хотя "Верифицирующий Оракул" специально разработан для борьбы с галлюцинациями в фактологических областях, его концепция закладывает основу для генерации с ограничениями истинности в будущих системах ИИ, открывая новый путь к созданию надёжных, эпистемически обоснованных моделей.

Агентный рефакторинг: эмпирическое исследование ИИ-агентов для программирования
Agentic Refactoring: An Empirical Study of AI Coding Agents

Nov 6

ByKosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan