AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Mem0: 확장 가능한 장기 메모리를 갖춘 프로덕션 준비 완료 AI 에이전트 구축
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28

ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

대규모 언어 모델(LLMs)은 맥락적으로 일관된 응답을 생성하는 데 있어 뛰어난 능력을 보여주지만, 고정된 컨텍스트 윈도우는 장기적인 다중 세션 대화에서 일관성을 유지하는 데 근본적인 어려움을 야기합니다. 우리는 이러한 문제를 해결하기 위해 진행 중인 대화에서 중요한 정보를 동적으로 추출, 통합 및 검색할 수 있는 확장 가능한 메모리 중심 아키텍처인 Mem0를 소개합니다. 이를 기반으로, 우리는 대화 요소 간의 복잡한 관계 구조를 포착하기 위해 그래프 기반 메모리 표현을 활용하는 향상된 변형을 추가로 제안합니다. LOCOMO 벤치마크에 대한 포괄적인 평가를 통해, 우리는 다음과 같은 여섯 가지 기준 카테고리와 우리의 접근 방식을 체계적으로 비교합니다: (i) 기존의 메모리 증강 시스템, (ii) 다양한 청크 크기와 k-값을 사용한 검색 증강 생성(RAG), (iii) 전체 대화 기록을 처리하는 전체 컨텍스트 접근법, (iv) 오픈소스 메모리 솔루션, (v) 독점 모델 시스템, (vi) 전용 메모리 관리 플랫폼. 실험 결과는 우리의 방법이 단일 홉, 시간적, 다중 홉, 개방형 도메인이라는 네 가지 질문 카테고리에서 모든 기존 메모리 시스템을 일관적으로 능가함을 보여줍니다. 특히, Mem0는 OpenAI 대비 LLM-as-a-Judge 지표에서 26%의 상대적 개선을 달성했으며, 그래프 메모리를 사용한 Mem0는 기본 구성보다 약 2% 높은 전체 점수를 기록했습니다. 정확도 향상 외에도, 우리는 전체 컨텍스트 방법에 비해 계산 오버헤드를 현저히 줄였습니다. 특히, Mem0는 p95 지연 시간을 91% 낮추고 토큰 비용을 90% 이상 절약하여 고급 추론 능력과 실용적인 배포 제약 사이의 균형을 제공합니다. 우리의 연구 결과는 장기적인 대화 일관성을 위한 구조화된 지속적 메모리 메커니즘의 중요성을 강조하며, 더 신뢰할 수 있고 효율적인 LLM 기반 AI 에이전트를 위한 길을 열어줍니다.

RepText: 복제를 통한 시각적 텍스트 렌더링
RepText: Rendering Visual Text via Replicating

Apr 28

ByHaofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen

현대의 텍스트-이미지 생성 모델들은 시각적으로 매력적인 이미지를 생성하는 데 있어서 놀라운 발전을 이루었지만, 정확하고 유연한 타이포그래피 요소, 특히 비라틴 문자를 생성하는 능력은 여전히 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 텍스트 이해가 텍스트 렌더링을 위한 충분 조건이지만 필수 조건은 아니라는 단순한 가정에서 출발합니다. 이를 바탕으로, 우리는 사전 훈련된 단일 언어 텍스트-이미지 생성 모델이 사용자가 지정한 폰트로 다국어 시각적 텍스트를 정확하게 렌더링하거나 더 정확히 말해 복제할 수 있도록 하는 RepText를 제안합니다. 구체적으로, 우리는 ControlNet의 설정을 채택하고, 추가적으로 언어에 구애받지 않는 글리프와 렌더링된 텍스트의 위치를 통합하여 조화로운 시각적 텍스트를 생성할 수 있도록 하여 사용자가 필요에 따라 텍스트 내용, 폰트 및 위치를 사용자 정의할 수 있게 합니다. 정확도를 높이기 위해, 확산 손실과 함께 텍스트 지각 손실을 사용합니다. 또한, 렌더링 과정을 안정화하기 위해 추론 단계에서 무작위 초기화 대신 노이즈가 있는 글리프 잠재 변수로 직접 초기화하고, 배경의 왜곡을 방지하기 위해 텍스트 영역에만 특징 주입을 제한하는 영역 마스크를 채택합니다. 우리는 기존 연구에 비해 RepText의 효과를 검증하기 위해 광범위한 실험을 수행했으며, 우리의 접근 방식은 기존의 오픈소스 방법들을 능가하고, 네이티브 다국어 폐쇄형 모델과 비슷한 결과를 달성했습니다. 더 공정한 평가를 위해, 마지막에 그 한계에 대해 철저히 논의합니다.

LLM의 임상 지식은 인간 상호작용으로 이어지지 않는다
Clinical knowledge in LLMs does not translate to human interactions

Apr 26

ByAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

전 세계의 의료 제공자들은 대규모 언어 모델(LLM)을 활용하여 대중에게 의학적 조언을 제공하는 방안을 탐구하고 있습니다. LLM은 현재 의료 면허 시험에서 거의 완벽한 점수를 달성하지만, 이는 반드시 실제 환경에서의 정확한 성능으로 이어지지는 않습니다. 우리는 1,298명의 참가자를 대상으로 한 통제된 연구에서, LLM이 대중이 기저 질환을 식별하고 행동 방침(처치)을 선택하는 데 도움을 줄 수 있는지 10가지 의학적 시나리오를 통해 테스트했습니다. 참가자들은 무작위로 LLM(GPT-4o, Llama 3, Command R+)의 도움을 받는 그룹과 자신이 선택한 소스(대조군)를 사용하는 그룹으로 나뉘었습니다. 단독으로 테스트했을 때, LLM은 시나리오를 정확하게 완료하여 평균 94.9%의 사례에서 조건을 정확히 식별하고 56.3%의 사례에서 처치를 결정했습니다. 그러나 동일한 LLM을 사용한 참가자들은 관련 조건을 34.5% 미만의 사례에서, 처치를 44.2% 미만의 사례에서만 식별했으며, 이는 대조군과 차이가 없었습니다. 우리는 사용자 상호작용을 의학적 조언을 위한 LLM 배포의 주요 과제로 확인했습니다. 의학 지식과 시뮬레이션된 환자 상호작용에 대한 표준 벤치마크는 인간 참가자와의 테스트에서 발견된 실패를 예측하지 못했습니다. 앞으로, 우리는 의료 분야에서 공개 배포 전에 상호작용 능력을 평가하기 위해 체계적인 인간 사용자 테스트를 권장합니다.

LLM 기반 GUI 에이전트를 활용한 휴대폰 자동화: 진전과 전망에 대한 조사
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28

ByGuangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li

대규모 언어 모델(LLM)의 급속한 부상과 함께, 휴대폰 자동화는 혁신적인 변화를 겪어 왔습니다. 본 논문은 LLM 기반 휴대폰 GUI 에이전트를 체계적으로 검토하며, 스크립트 기반 자동화에서 지능적이고 적응형 시스템으로의 진화를 강조합니다. 먼저 주요 과제인 (i) 제한된 일반성, (ii) 높은 유지보수 부담, (iii) 약한 의도 이해를 맥락화하고, LLM이 고급 언어 이해, 다중 모드 인지, 강력한 의사결정을 통해 이러한 문제를 어떻게 해결하는지 보여줍니다. 그런 다음, 기본 에이전트 프레임워크(단일 에이전트, 다중 에이전트, 계획 후 실행), 모델링 접근 방식(프롬프트 엔지니어링, 학습 기반), 필수 데이터셋 및 벤치마크를 포함한 분류 체계를 제안합니다. 또한, 사용자 의도와 GUI 작업을 연결하는 작업별 아키텍처, 지도 미세 조정, 강화 학습 전략을 상세히 설명합니다. 마지막으로, 데이터셋 다양성, 온디바이스 배포 효율성, 사용자 중심 적응, 보안 문제와 같은 개방형 과제를 논의하며, 이 빠르게 진화하는 분야에 대한 미래 지향적 통찰을 제공합니다. 본 논문은 구조화된 개요를 제공하고 시급한 연구 격차를 식별함으로써, 확장 가능하고 사용자 친화적인 휴대폰 GUI 에이전트 설계에 LLM을 활용하려는 연구자 및 실무자들에게 결정적인 참고 자료 역할을 합니다.

SPC: 대규모 언어 모델 추론을 위한 적대적 게임을 통한 자기 대결 비평가 진화
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27

ByJiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong

체인 오브 사고(Chain-of-Thought)와 같은 대규모 언어 모델(LLM)의 단계별 추론 신뢰성을 평가하는 것은 고품질의 단계별 감독 데이터를 얻는 데 어려움과 비용이 따르기 때문에 여전히 도전적인 과제로 남아 있습니다. 본 논문에서는 수동으로 단계별 주석을 달 필요 없이, 비평 모델이 적대적 자기 대결 게임을 통해 추론 단계를 평가하는 능력을 진화시키는 새로운 접근 방식인 Self-Play Critic(SPC)을 소개합니다. SPC는 기본 모델의 두 복사본을 미세 조정하여 두 가지 역할을 수행하도록 합니다. 하나는 감지하기 어려운 오류가 포함된 단계를 의도적으로 생성하는 "교묘한 생성기(sneaky generator)"이고, 다른 하나는 추론 단계의 정확성을 분석하는 "비평가(critic)"입니다. 이 두 모델은 생성기가 비평가를 속이려 하고, 비평가는 생성기의 오류를 식별하려는 적대적 게임에 참여합니다. 게임 결과를 기반으로 한 강화 학습을 통해 모델은 반복적으로 개선됩니다. 각 대결에서 승자는 긍정적인 보상을 받고 패자는 부정적인 보상을 받으며, 이를 통해 지속적인 자기 진화가 이루어집니다. 세 가지 추론 프로세스 벤치마크(ProcessBench, PRM800K, DeltaBench)에서의 실험 결과, SPC는 오류 탐지 능력을 점진적으로 향상시키며(예: ProcessBench에서 정확도가 70.8%에서 77.7%로 증가), 증류된 R1 모델을 포함한 강력한 베이스라인을 능가하는 것으로 나타났습니다. 또한, SPC를 다양한 LLM의 테스트 시간 탐색을 안내하는 데 적용하면 MATH500과 AIME2024에서의 수학적 추론 성능이 크게 향상되어 최신 프로세스 보상 모델을 능가하는 결과를 보였습니다.

CipherBank: 암호학 도전 과제를 통해 LLM의 추론 능력 경계 탐구
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27

ByYu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu

대규모 언어 모델(LLM)은 특히 o1과 o3와 같은 최근의 추론 능력 발전을 통해 AI의 한계를 넓히며 놀라운 역량을 보여주고 있습니다. 수학 및 코딩 분야에서 이러한 인상적인 성과에도 불구하고, 암호화 전문 지식이 필요한 영역에서의 LLM의 추론 능력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 암호 해독 작업에서 LLM의 추론 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 CipherBank을 소개합니다. CipherBank는 5개 도메인과 14개 하위 도메인에 걸쳐 262개의 고유한 평문을 포함한 2,358개의 세심하게 제작된 문제로 구성되어 있으며, 암호화가 필요한 개인정보 보호 및 실제 시나리오에 초점을 맞추고 있습니다. 암호학적 관점에서 CipherBank는 고전 암호부터 맞춤형 암호 기술까지 9개의 독특한 알고리즘을 아우르는 3가지 주요 암호화 방법 범주를 포함합니다. 우리는 CipherBank에서 GPT-4o, DeepSeek-V3와 같은 최첨단 LLM과 o1 및 DeepSeek-R1과 같은 추론 중심 모델을 평가했습니다. 그 결과, 일반적인 채팅 LLM과 추론 중심 LLM 간의 추론 능력 차이뿐만 아니라, 고전 암호 해독 작업에 적용된 현재의 추론 중심 모델의 성능에서도 상당한 격차가 있음을 발견했습니다. 이는 이러한 모델들이 암호화된 데이터를 이해하고 조작하는 데 직면한 도전을 강조합니다. 상세한 분석과 오류 조사를 통해, 우리는 암호학적 추론에서 LLM의 한계와 잠재적인 개선 영역을 밝히는 몇 가지 주요 관찰 결과를 제공합니다. 이러한 발견은 LLM의 추론 능력 지속적인 발전의 필요성을 강조합니다.

명시적 시각적 의존성을 고려한 다중모달 수학적 추론 벤치마킹
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24

ByZhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao

대형 시각-언어 모델(LVLMs)의 최근 발전은 시각적 정보와 언어적 정보를 통합하는 능력을 크게 향상시켜, 객체 인식, 캡셔닝, 시각적 질문 응답과 같은 작업에서 인간에 가까운 숙련도를 달성했습니다. 그러나 현재의 벤치마크는 주로 도메인 특화 지식을 평가하는 지식 중심 평가에 초점을 맞추고 있어, 기본적인 수학적 요소와 시각적 개념에 대한 추론 능력을 평가하는 데는 소홀한 경향이 있습니다. 우리는 명시적인 시각적 의존성을 요구하는 초등 수준의 수학 문제를 평가하는 데 있어 격차를 확인했습니다. 이러한 문제는 모델이 여러 이미지를 식별, 통합, 추론하고 상식 지식을 통합해야 하며, 이는 더 넓은 범용 인공지능(AGI) 능력으로 나아가기 위해 중요한 요소입니다. 이러한 격차를 해결하기 위해, 우리는 명시적인 시각적 의존성을 가진 다중 모드 수학적 추론을 위한 포괄적인 벤치마크인 VCBENCH를 소개합니다. VCBENCH는 6개의 인지 영역에 걸친 1,720개의 문제와 6,697개의 이미지(질문당 평균 3.9개)를 포함하여 다중 이미지 추론을 보장합니다. 우리는 VCBENCH에서 26개의 최신 LVLM을 평가했으며, 상당한 성능 격차를 발견했고, 심지어 최상위 모델도 50% 정확도를 넘지 못했습니다. 우리의 연구 결과는 시각-수학적 통합에서의 지속적인 과제를 강조하며, 향후 LVLM 발전을 위한 방향을 제시합니다.

등변성 안티앨리어싱을 통한 그룹 다운샘플링
Group Downsampling with Equivariant Anti-aliasing

Apr 24

ByMd Ashiqur Rahman, Raymond A. Yeh

다운샘플링 레이어는 CNN 아키텍처에서 중요한 구성 요소로, 고수준 특징 학습을 위한 수용 영역을 증가시키고 모델의 메모리/계산량을 줄이는 데 도움을 줍니다. 본 연구에서는 그룹 등변 아키텍처(예: G-CNN)를 위한 균일 다운샘플링 레이어의 일반화를 탐구합니다. 즉, 일반적인 유한 그룹에서 안티앨리어싱을 적용하여 신호(특징 맵)를 다운샘플링하는 것을 목표로 합니다. 이는 다음과 같은 내용을 포함합니다: (a) 주어진 유한 그룹과 다운샘플링 비율에 대해 적절한 부분 그룹을 선택하는 알고리즘을 제시합니다. (b) 그룹과 부분 그룹이 주어졌을 때, 대역 제한성의 개념을 연구하고 안티앨리어싱을 수행하는 방법을 제안합니다. 특히, 우리의 방법은 고전적인 샘플링 이론에 기반한 다운샘플링 개념을 일반화합니다. 신호가 순환 그룹(즉, 주기적)에 있을 때, 우리의 방법은 이상적인 저역통과 필터와 서브샘플링 작업으로 구성된 표준 다운샘플링을 복원합니다. 마지막으로, 이미지 분류 작업에서 실험을 수행하여 제안된 다운샘플링 작업이 G-등변 네트워크에 통합될 때 정확도를 향상시키고 등변성을 더 잘 보존하며 모델 크기를 줄이는 것을 입증했습니다.

MMInference: 모달리티 인지 순열 희소 주의를 통한 장문맥 VLM 사전 채우기 가속화
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22

ByYucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

장기 문맥 처리 능력과 시각적 이해의 통합은 비전 언어 모델(Vision Language Models, VLMs)에 있어 전례 없는 잠재력을 발휘합니다. 그러나 사전 채우기 단계에서 발생하는 이차적 주의 복잡도는 실제 환경에서의 배포에 있어 여전히 큰 장애물로 남아 있습니다. 이러한 한계를 극복하기 위해, 우리는 MMInference(Multimodality Million tokens Inference)를 소개합니다. 이는 장기 문맥 다중 모달 입력에 대한 사전 채우기 단계를 가속화하는 동적 희소 주의 메커니즘입니다. 먼저, 우리의 분석은 비디오 입력의 시간적 및 공간적 지역성이 독특한 희소 패턴인 그리드 패턴을 유발한다는 것을 보여줍니다. 동시에, VLMs은 서로 다른 모달리티 간에 현저히 다른 희소 분포를 보입니다. 우리는 이러한 독특한 그리드 패턴을 활용하고 모달리티 경계 문제를 처리하기 위해 순열 기반 방법을 도입했습니다. MMInference는 각 헤드에 대해 최적의 희소 패턴을 오프라인에서 탐색하고, 이를 기반으로 입력에 따라 동적으로 희소 분포를 구성합니다. 또한, 효율적인 희소 계산을 위해 최적화된 GPU 커널을 제공합니다. 특히, MMInference는 기존 VLM 파이프라인에 모델 수정이나 미세 조정 없이 원활하게 통합됩니다. Video QA, Captioning, VisionNIAH, Mixed-Modality NIAH를 포함한 다중 모달 벤치마크에서 최신 장기 문맥 VLMs(LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL)을 사용한 실험 결과, MMInference는 1백만 토큰에서 최대 8.3배까지 사전 채우기 단계를 가속화하면서도 정확도를 유지하는 것으로 나타났습니다. 우리의 코드는 https://aka.ms/MMInference에서 확인할 수 있습니다.

NORA: 구체화된 작업을 위한 소규모 오픈소스 일반 목적 시각-언어-행동 모델
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28

ByChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria

기존의 시각-언어-행동(VLA) 모델들은 제로샷 시나리오에서 유망한 성능을 보이며, 인상적인 작업 실행 및 추론 능력을 입증했습니다. 그러나 시각 인코딩의 한계로 인해 물체 파지와 같은 작업에서 실패가 발생할 수 있다는 중요한 문제가 존재합니다. 또한, 이러한 모델들은 대개 70억 개 이상의 파라미터를 가진 대규모 모델로 인해 높은 계산 오버헤드를 겪는 경향이 있습니다. 이러한 모델들은 추론 및 작업 계획에서 뛰어난 성능을 보이지만, 실시간 로봇 환경에서는 속도와 효율성이 가장 중요한 요소이기 때문에, 이들의 상당한 계산 오버헤드는 실용적이지 못한 단점으로 작용합니다. 기존 VLA 모델의 한계를 해결하기 위해, 우리는 계산 오버헤드를 줄이면서도 강력한 작업 성능을 유지하는 30억 파라미터 모델인 NORA를 제안합니다. NORA는 Qwen-2.5-VL-3B 멀티모달 모델을 백본으로 채택하여, 우수한 시각-의미 이해 능력을 활용해 시각 추론 및 행동 기반을 강화합니다. 또한, NORA는 970,000개의 실제 로봇 데모 데이터로 학습되었으며, 효율적인 행동 시퀀스 생성을 위해 FAST+ 토크나이저를 장착했습니다. 실험 결과, NORA는 기존 대규모 VLA 모델들을 능가하며, 계산 오버헤드를 크게 줄이면서도 더 나은 작업 성능을 달성함으로써, 실시간 로봇 자율성을 위한 더 실용적인 솔루션임을 입증했습니다.

TrustGeoGen: 신뢰할 수 있는 다중 모드 기하 문제 해결을 위한 확장 가능하고 형식 검증된 데이터 엔진
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22

ByDaocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao

수학적 기하 문제 해결(GPS)은 종종 다중 모드 정보의 효과적인 통합과 검증 가능한 논리적 일관성을 요구합니다. 일반적인 문제 해결 분야에서 대형 언어 모델의 급속한 발전에도 불구하고, 특히 기존의 합성 GPS 벤치마크가 자가 검증되지 않고 LLM의 환상으로 인해 노이즈와 자기 모순 정보를 포함하고 있다는 사실을 고려할 때, 방법론과 벤치마크 모두에 대해 해결되지 않은 문제로 남아 있습니다. 본 논문에서는 문제 생성을 위한 확장 가능한 데이터 엔진인 TrustGeoGen을 제안하며, 형식적 검증을 통해 원칙적인 벤치마크를 제공함으로써 GPS 방법의 추가 발전을 위한 기반을 마련하고자 합니다. 이 엔진은 네 가지 주요 혁신을 통해 기하 데이터를 합성합니다: 1) 다이어그램, 텍스트 설명, 단계별 해결책의 다중 모드 정렬 생성; 2) 규칙 준수 추론 경로를 보장하는 형식적 검증; 3) 재귀적 상태 생성을 통해 복잡성 확장을 가능하게 하는 부트스트래핑 메커니즘; 4) 다중 해결책 변형과 자기 반추적 추적을 동시에 생성하는 우리가 고안한 GeoExplore 시리즈 알고리즘. 형식적 논리 검증을 통해 TrustGeoGen은 모달리티 무결성이 보장된 GeoTrust-200K 데이터셋과 GeoTrust-test 테스트셋을 생성합니다. 실험 결과, 최첨단 모델들이 GeoTrust-test에서 단 49.17%의 정확도를 달성함으로써 이 테스트셋의 평가 엄격성을 입증했습니다. 특히, GeoTrust로 훈련된 모델들은 GeoQA에서 OOD 일반화를 달성하며, OpenAI-o1에 의해 주석된 가짜 레이블에 비해 논리적 불일치를 크게 줄였습니다. 우리의 코드는 https://github.com/Alpha-Innovator/TrustGeoGen에서 확인할 수 있습니다.

프롬프트 기반 제어를 통한 다목적 노래 생성 프레임워크
Versatile Framework for Song Generation with Prompt-based Control

Apr 27

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao

노래 생성은 다양한 프롬프트를 기반으로 제어 가능한 고품질의 노래를 생성하는 데 초점을 맞춥니다. 그러나 기존 방법들은 프롬프트 기반 제어와 적절한 정렬을 통해 보컬과 반주를 생성하는 데 어려움을 겪습니다. 또한, 다양한 작업을 지원하는 데에도 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 프롬프트 기반 제어와 정렬이 가능한 고품질의 노래를 합성하기 위한 다중 작업 노래 생성 프레임워크인 VersBand를 소개합니다. VersBand는 다음과 같은 주요 모델들로 구성됩니다: 1) VocalBand는 분리된 모델로, 플로우 매칭 방법을 활용하여 노래 스타일, 음높이, 멜-스펙트로그램을 생성함으로써 스타일 제어가 가능한 빠르고 고품질의 보컬 생성을 가능하게 합니다. 2) AccompBand는 플로우 기반 트랜스포머 모델로, Band-MOE를 통합하여 적합한 전문가를 선택하여 품질, 정렬, 제어를 향상시킵니다. 이 모델은 보컬과 정렬된 제어 가능한 고품질의 반주 생성을 가능하게 합니다. 3) 두 가지 생성 모델인 LyricBand(가사 생성)와 MelodyBand(멜로디 생성)는 다중 프롬프트를 기반으로 한 포괄적인 다중 작업 노래 생성 시스템에 기여합니다. 실험 결과는 VersBand가 객관적 및 주관적 지표를 사용하여 여러 노래 생성 작업에서 기준 모델들보다 더 나은 성능을 보임을 입증합니다. 오디오 샘플은 https://VersBand.github.io에서 확인할 수 있습니다.

ICL 암호: 대체 암호를 통해 인-컨텍스트 러닝의 "학습"을 정량화하기
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28

ByZhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi

최근 연구들은 인컨텍스트 러닝(In-Context Learning, ICL)이 이중 모드, 즉 태스크 검색(사전 훈련에서 학습된 패턴을 기억)과 태스크 학습(데모를 통한 추론 시점 '학습')으로 작동한다고 제안했습니다. 그러나 이 두 모드를 분리하는 것은 여전히 도전적인 목표로 남아 있습니다. 우리는 고전 암호학에서 차용한 치환 암호(substitution cipher)를 기반으로 한 태스크 재구성 클래스인 ICL CIPHERS를 소개합니다. 이 접근법에서는 인컨텍스트 입력의 토큰 일부를 다른(무관한) 토큰으로 치환하여 영어 문장을 인간의 눈에 덜 이해 가능하게 만듭니다. 그러나 설계상, 이 치환에는 잠재적이고 고정된 패턴이 존재하여 이를 역변환할 수 있습니다. 이 전단사적(역변환 가능) 암호는 변형에도 불구하고 어떤 추상적 의미에서 태스크가 잘 정의된 태스크로 남아 있음을 보장합니다. LLM(Large Language Model)이 잠재적 암호를 해독해야 하는 전단사적 매핑을 사용하여 ICL CIPHERS를 해결할 수 있는지 여부는 흥미로운 질문입니다. 우리는 LLM이 비전단사적(역변환 불가능) 기준선보다 전단사적 매핑을 사용한 ICL CIPHERS를 더 잘 해결한다는 것을 보여주며, 이를 통해 ICL에서 '학습'을 정량화하는 새로운 접근 방식을 제시합니다. 이 격차는 작지만, 네 개의 데이터셋과 여섯 개의 모델에서 일관되게 관찰됩니다. 마지막으로, 우리는 LLM의 내부 표현을 조사하고 암호화된 입력을 해독하는 능력에 대한 증거를 확인합니다.

ChiseLLM: Chisel 애자일 하드웨어 개발을 위한 추론 LLM의 힘을 발휘하다
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27

ByBowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang

도메인 특화 아키텍처(Domain-Specific Architecture, DSA)에 대한 수요가 증가함에 따라, 애자일 하드웨어 개발 방법론(Agile Hardware Development Methodology, AHDM)의 개발이 촉진되고 있습니다. Chisel과 같은 하드웨어 구성 언어(Hardware Construction Language, HCL)는 높은 수준의 추상화 기능을 제공하여 HCL 기반 AHDM에 이상적인 언어로 자리 잡고 있습니다. 대형 언어 모델(Large Language Models, LLMs)은 코드 생성 작업에서 뛰어난 성능을 보이지만, 특히 구문 정확성과 설계 다양성 측면에서 Chisel 생성에는 여전히 어려움을 겪고 있습니다. 최근의 추론 모델은 테스트 시간 스케일링 기법을 통해 코드 생성 능력을 크게 향상시켰습니다. 그러나 도메인 적응 없이 사용된 추론 모델은 Chisel 코드 생성 작업에 큰 이점을 가져다주지 못한다는 것을 발견했습니다. 본 논문은 데이터 처리 및 변환, 프롬프트 기반 추론 트레이스 합성, 도메인 적응 모델 학습을 포함한 ChiseLLM 솔루션을 제시합니다. 공개된 RTL 코드 리소스로부터 고품질 데이터셋을 구축하고, 프롬프트 강화 방법을 통해 모델이 구조화된 사고 패턴을 채택하도록 유도했습니다. 실험 결과, 우리의 ChiseLLM-7B와 ChiseLLM-32B 모델은 기본 모델 대비 구문 정확성을 각각 18.85%와 26.32% 향상시켰으며, 기준 추론 모델 대비 설계 다양성 능력을 47.58% 증가시켰습니다. 우리의 데이터셋과 모델은 공개되어 있으며, HCL 기반 AHDM을 위한 고성능, 비용 효율적인 모델을 제공함과 동시에 향후 연구를 위한 효과적인 기준을 제시합니다. Github 저장소: https://github.com/observerw/ChiseLLM

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Mem0: 확장 가능한 장기 메모리를 갖춘 프로덕션 준비 완료 AI 에이전트 구축
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28

ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

RepText: 복제를 통한 시각적 텍스트 렌더링
RepText: Rendering Visual Text via Replicating

Apr 28

ByHaofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen

LLM의 임상 지식은 인간 상호작용으로 이어지지 않는다
Clinical knowledge in LLMs does not translate to human interactions

Apr 26

ByAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

LLM 기반 GUI 에이전트를 활용한 휴대폰 자동화: 진전과 전망에 대한 조사
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28

SPC: 대규모 언어 모델 추론을 위한 적대적 게임을 통한 자기 대결 비평가 진화
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27

ByJiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong

CipherBank: 암호학 도전 과제를 통해 LLM의 추론 능력 경계 탐구
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27

ByYu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu

명시적 시각적 의존성을 고려한 다중모달 수학적 추론 벤치마킹
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24

ByZhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao

등변성 안티앨리어싱을 통한 그룹 다운샘플링
Group Downsampling with Equivariant Anti-aliasing

Apr 24

ByMd Ashiqur Rahman, Raymond A. Yeh

MMInference: 모달리티 인지 순열 희소 주의를 통한 장문맥 VLM 사전 채우기 가속화
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22

ByYucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

NORA: 구체화된 작업을 위한 소규모 오픈소스 일반 목적 시각-언어-행동 모델
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28

ByChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria

TrustGeoGen: 신뢰할 수 있는 다중 모드 기하 문제 해결을 위한 확장 가능하고 형식 검증된 데이터 엔진
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22

ByDaocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao

프롬프트 기반 제어를 통한 다목적 노래 생성 프레임워크
Versatile Framework for Song Generation with Prompt-based Control

Apr 27

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao

ICL 암호: 대체 암호를 통해 인-컨텍스트 러닝의 "학습"을 정량화하기
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28

ByZhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi

ChiseLLM: Chisel 애자일 하드웨어 개발을 위한 추론 LLM의 힘을 발휘하다
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27

ByBowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang