ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ProRL: Пролонгированное обучение с подкреплением расширяет границы рассуждений в крупных языковых моделях
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong•May 30, 2025•1123

AlphaOne: Модели рассуждений, сочетающие медленное и быстрое мышление во время тестирования
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang•May 30, 2025•862

Временная слепота: почему видеоязыковые модели не видят то, что видят люди?
Time Blindness: Why Video-Language Models Can't See What Humans Can?

Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny•May 30, 2025•723

Крупные языковые модели для синтеза данных
Large Language Models for Data Synthesis

Yihong Tang, Menglin Kong, Lijun Sun•May 20, 2025•472

HardTests: Синтез высококачественных тестовых случаев для кодирования на языковых моделях (LLM)
HardTests: Synthesizing High-Quality Test Cases for LLM Coding

Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li•May 30, 2025•412

Не смотри только один раз: к мультимодальному интерактивному рассуждению с избирательным визуальным возвращением
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

Jiwan Chung, Junhyeok Kim, Siyeol Kim, Jaeyoung Lee, Min Soo Kim, Youngjae Yu•May 24, 2025•352

ViStoryBench: Комплексный набор тестов для визуализации историй
ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang•May 30, 2025•302

DINO-R1: Стимулирование способности к логическому рассуждению в базовых моделях компьютерного зрения
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren•May 29, 2025•233

EXP-Bench: Способен ли ИИ проводить эксперименты в области исследований ИИ?
EXP-Bench: Can AI Conduct AI Research Experiments?

Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen•May 30, 2025•223

Open CaptchaWorld: Комплексная веб-платформа для тестирования и бенчмаркинга мультимодальных агентов на основе больших языковых моделей
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen•May 30, 2025•212

CoDA: Оптимизация согласованного диффузионного шума для манипуляций с сочлененными объектами всем телом
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura•May 27, 2025•202

MoDoMoDo: Смеси данных из множества доменов для обучения с подкреплением мультимодальных языковых моделей
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu•May 30, 2025•183

Модели обработки зрения и языка обладают предвзятостью.
Vision Language Models are Biased

An Vo, Khai-Nguyen Nguyen, Mohammad Reza Taesiri, Vy Tuong Dang, Anh Totti Nguyen, Daeyoung Kim•May 29, 2025•172

EmergentTTS-Eval: Оценка моделей синтеза речи на сложные задачи в области просодии, выразительности и лингвистики с использованием подхода "Модель как судья"
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola•May 29, 2025•172

MetaFaith: Достоверное выражение неопределенности на естественном языке в больших языковых моделях
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

Gabrielle Kaili-May Liu, Gal Yona, Avi Caciularu, Idan Szpektor, Tim G. J. Rudner, Arman Cohan•May 30, 2025•162

UniGeo: Управление видеодиффузией для унифицированной оценки согласованной геометрии
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi•May 30, 2025•152

Больше размышлений, меньше визуализации? Оценка усиленных галлюцинаций в мультимодальных моделях рассуждений
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu•May 23, 2025•142

CLaSp: Пропуск слоев в контексте для самоспецифического декодирования
CLaSp: In-Context Layer Skip for Self-Speculative Decoding

Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang•May 30, 2025•136

EasyText: Управляемый диффузионный трансформер для многоязычного рендеринга текста
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song•May 30, 2025•122

Крупные языковые модели представляют собой локально линейные отображения.
Large Language Models are Locally Linear Mappings

James R. Golden•May 30, 2025•114

ReasonGen-R1: CoT для авторегрессионных моделей генерации изображений через SFT и RL
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu•May 30, 2025•102

Fork-Merge Decoding: Улучшение мультимодального понимания в аудиовизуальных больших языковых моделях
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

Chaeyoung Jung, Youngjoon Jang, Jongmin Choi, Joon Son Chung•May 27, 2025•102

Использование негативных сигналов: дистилляция с подкреплением на основе данных учителя для рассуждений в больших языковых моделях
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi•May 30, 2025•93

DexUMI: Использование человеческой руки в качестве универсального интерфейса для манипуляций в задачах ловкого управления
DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

Mengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song•May 28, 2025•92

ChARM: Моделирование адаптивного к действиям вознаграждения на основе символов для продвинутых языковых агентов ролевых игр
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li•May 29, 2025•72

Ролевая оценка для крупных языковых моделей
Role-Playing Evaluation for Large Language Models

Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter•May 19, 2025•72

Оценка и управление предпочтениями модальностей в мультимодальных больших языковых моделях
Evaluating and Steering Modality Preferences in Multimodal Large Language Model

Yu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang•May 27, 2025•62

SiLVR: Простая структура для рассуждений на основе языка в видео
SiLVR: A Simple Language-based Video Reasoning Framework

Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius•May 30, 2025•52

Использование больших языковых моделей для обнаружения научной новизны
Harnessing Large Language Models for Scientific Novelty Detection

Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria•May 30, 2025•52

un^2CLIP: Улучшение способности CLIP к захвату визуальных деталей через инвертирование unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP

Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen•May 30, 2025•52

Тонкая настройка малой языковой модели или использование подсказок для большой языковой модели? Пример генерации низкокодовых рабочих процессов
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen•May 30, 2025•52

Point-MoE: К кросс-доменной обобщаемости в 3D семантической сегментации через подход "Смесь экспертов"
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury, Zezhou Cheng•May 29, 2025•52

Обеспечение гибкой интеграции нескольких языковых моделей для масштабируемой агрегации знаний
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation

Zhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang•May 28, 2025•52

Переосмысление билинейных переходов состояний в рекуррентных нейронных сетях
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks

M. Reza Ebrahimi, Roland Memisevic•May 27, 2025•42

TRIDENT: Повышение безопасности крупных языковых моделей с помощью трехмерного синтеза диверсифицированных данных для тестирования на уязвимости
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li•May 30, 2025•32

GATE: Универсальное векторное представление арабских текстов для улучшенной семантической текстовой схожести с использованием обучения матрёшечных представлений и гибридной функции потерь
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila•May 30, 2025•32

Грамматики формальной неопределенности: когда доверять большим языковым моделям в задачах автоматизированного рассуждения
Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

Debargha Ganguly, Vikash Singh, Sreehari Sankar, Biyao Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary•May 26, 2025•32

Автоматизированная, но рискованная игра: моделирование переговоров и сделок между агентами на потребительских рынках
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets

Shenzhe Zhu, Jiao Sun, Yi Nian, Tobin South, Alex Pentland, Jiaxin Pei•May 29, 2025•23

OMNIGUARD: Эффективный подход к обеспечению безопасности ИИ при модерации в различных модальностях
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh•May 29, 2025•22

LegalSearchLM: Переосмысление поиска юридических прецедентов как генерации юридических элементов
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation

Chaeeun Kim, Jinu Lee, Wonseok Hwang•May 28, 2025•21

Контекст — это золото для поиска золотого фрагмента: оценка и обучение контекстуальных векторных представлений документов
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings

Max Conti, Manuel Faysse, Gautier Viaud, Antoine Bosselut, Céline Hudelot, Pierre Colombo•May 30, 2025•12

Состояние исследований безопасности многоязычных LLM: от измерения языкового разрыва к его устранению
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

Zheng-Xin Yong, Beyza Ermis, Marzieh Fadaee, Stephen H. Bach, Julia Kreutzer•May 30, 2025•12