번역이 포함된 일일 선별된 AI 연구 논문
Qwen2.5-VL은 Qwen 시각-언어 시리즈의 최신 플래그십 모델로, 기초 능력과 혁신적인 기능 모두에서 상당한 발전을 보여줍니다. Qwen2.5-VL은 향상된 시각 인식, 정확한 객체 위치 파악, 강력한 문서 구문 분석, 그리고 긴 영상 이해를 통해 세상을 이해하고 상호작용하는 데 있어 큰 도약을 이루었습니다. Qwen2.5-VL의 두드러진 특징 중 하나는 바운딩 박스나 점을 사용하여 객체를 정확하게 위치 파악할 수 있는 능력입니다. 이 모델은 송장, 양식, 테이블로부터 강력한 구조화된 데이터 추출을 제공하며, 차트, 다이어그램, 레이아웃에 대한 상세한 분석도 가능합니다. 복잡한 입력을 처리하기 위해 Qwen2.5-VL은 동적 해상도 처리와 절대 시간 인코딩을 도입하여 다양한 크기의 이미지와 긴 지속 시간(최대 몇 시간)의 영상을 초 단위 이벤트 위치 파악과 함께 처리할 수 있습니다. 이를 통해 전통적인 정규화 기법에 의존하지 않고도 공간적 규모와 시간적 동역학을 자연스럽게 인지할 수 있습니다. 동적 해상도 Vision Transformer(ViT)를 처음부터 학습하고 Window Attention을 통합함으로써, 우리는 원래 해상도를 유지하면서 계산 오버헤드를 줄였습니다. 그 결과, Qwen2.5-VL은 정적 이미지와 문서 이해뿐만 아니라 컴퓨터와 모바일 기기 작동과 같은 실제 시나리오에서 추론, 도구 사용, 작업 실행이 가능한 상호작용형 시각 에이전트로서도 뛰어난 성능을 발휘합니다. Qwen2.5-VL은 엣지 AI에서 고성능 컴퓨팅에 이르기까지 다양한 사용 사례를 해결하기 위해 세 가지 크기로 제공됩니다. 플래그십 모델인 Qwen2.5-VL-72B는 GPT-4o 및 Claude 3.5 Sonnet과 같은 최첨단 모델과 견줄 만하며, 특히 문서와 다이어그램 이해에서 탁월한 성능을 보입니다. 또한, Qwen2.5-VL은 Qwen2.5 LLM의 핵심 언어 능력을 유지하며 강력한 언어 성능을 유지합니다.
생성형 기초 모델(Generative Foundation Models, GenFMs)은 혁신적인 도구로 부상하고 있습니다. 그러나 이러한 모델의 광범위한 채택은 다양한 차원에서의 신뢰성에 대한 중요한 우려를 제기합니다. 본 논문은 이러한 과제를 해결하기 위한 포괄적인 프레임워크를 세 가지 주요 기여를 통해 제시합니다. 첫째, 정부 및 규제 기관의 글로벌 AI 거버넌스 법률과 정책, 그리고 산업 관행과 표준을 체계적으로 검토합니다. 이를 바탕으로 기술적, 윤리적, 법적, 사회적 관점을 통합한 다학제적 협력을 통해 GenFMs를 위한 일련의 지침 원칙을 제안합니다. 둘째, 텍스트-이미지, 대형 언어, 그리고 비전-언어 모델을 포함한 다양한 모델 유형과 차원에서 신뢰성을 평가하기 위해 설계된 첫 번째 동적 벤치마킹 플랫폼인 TrustGen을 소개합니다. TrustGen은 메타데이터 큐레이션, 테스트 케이스 생성, 그리고 맥락적 변형과 같은 모듈식 구성 요소를 활용하여 적응적이고 반복적인 평가를 가능하게 함으로써 정적 평가 방법의 한계를 극복합니다. TrustGen을 사용하여 우리는 신뢰성에서의 상당한 진전을 보여주는 동시에 지속적인 과제를 식별합니다. 마지막으로, 신뢰할 수 있는 GenFMs를 위한 과제와 미래 방향에 대한 심층 논의를 제공하며, 이는 신뢰성의 복잡하고 진화하는 본질을 드러내고, 유용성과 신뢰성 사이의 미묘한 균형, 그리고 다양한 다운스트림 애플리케이션에 대한 고려를 강조하며, 지속적인 과제를 식별하고 미래 연구를 위한 전략적 로드맵을 제공합니다. 이 작업은 GenAI에서 신뢰성을 발전시키기 위한 종합적인 프레임워크를 구축함으로써 GenFMs를 중요한 애플리케이션에 더 안전하고 책임감 있게 통합하는 길을 열어줍니다. 커뮤니티의 발전을 촉진하기 위해 동적 평가를 위한 툴킷을 공개합니다.
텍스트-투-송 생성(Text-to-song generation)은 텍스트 입력으로부터 보컬과 반주를 생성하는 작업으로, 도메인의 복잡성과 데이터 부족으로 인해 상당한 도전 과제를 안고 있습니다. 기존 접근 방식은 다단계 생성 절차를 사용하는 경우가 많아, 번거로운 학습 및 추론 파이프라인을 초래합니다. 본 논문에서는 제어 가능한 노래 생성을 위해 설계된 완전 오픈소스 단일 단계 자기회귀 트랜스포머인 SongGen을 제안합니다. 제안된 모델은 가사와 악기 구성, 장르, 분위기, 음색 등 다양한 음악적 속성에 대한 세밀한 제어를 가능하게 하며, 보이스 클로닝을 위한 3초 길이의 참조 클립을 옵션으로 제공합니다. 통합된 자기회귀 프레임워크 내에서 SongGen은 두 가지 출력 모드를 지원합니다: 보컬과 반주를 직접 혼합하여 생성하는 혼합 모드와, 다운스트림 애플리케이션에서 더 큰 유연성을 위해 이를 별도로 합성하는 듀얼 트랙 모드입니다. 각 모드에 대해 다양한 토큰 패턴 전략을 탐구하여 주목할 만한 개선과 유의미한 통찰을 도출했습니다. 또한, 효과적인 품질 관리를 자동화한 데이터 전처리 파이프라인을 설계했습니다. 커뮤니티 참여와 향후 연구를 촉진하기 위해 모델 가중치, 학습 코드, 주석이 달린 데이터, 전처리 파이프라인을 공개할 예정입니다. 생성된 샘플은 프로젝트 페이지(https://liuzh-19.github.io/SongGen/)에서 확인할 수 있으며, 코드는 https://github.com/LiuZH-19/SongGen에서 제공될 예정입니다.
기존의 종단간 자율주행(AD) 알고리즘은 일반적으로 모방 학습(IL) 패러다임을 따르며, 이는 인과적 혼동(causal confusion)과 개방 루프 간극(open-loop gap)과 같은 문제에 직면해 있습니다. 본 연구에서는 3DGS(3D Gaussian Splatting) 기반의 폐쇄 루프 강화 학습(RL) 훈련 패러다임을 구축합니다. 3DGS 기술을 활용하여 실제 물리 세계를 사실적으로 재현한 디지털 복제본을 구축함으로써, AD 정책이 상태 공간을 광범위하게 탐색하고 대규모 시행착오를 통해 분포 외(out-of-distribution) 시나리오를 처리하는 방법을 학습할 수 있도록 합니다. 안전성을 강화하기 위해, 정책이 안전 관련 위기 상황에 효과적으로 대응하고 실제 세계의 인과 관계를 이해하도록 유도하는 특수 보상 체계를 설계했습니다. 또한 인간의 운전 행동과 더 잘 일치시키기 위해, RL 훈련에 IL을 정규화 항으로 통합했습니다. 우리는 다양한, 이전에 접하지 못한 3DGS 환경으로 구성된 폐쇄 루프 평가 벤치마크를 소개합니다. IL 기반 방법과 비교했을 때, RAD는 대부분의 폐쇄 루프 지표에서 더 강력한 성능을 보였으며, 특히 충돌률이 3배 낮았습니다. 풍부한 폐쇄 루프 결과는 https://hgao-cv.github.io/RAD에서 확인할 수 있습니다.
대형 언어 모델(LLM)은 복잡한 추론 작업에서 뛰어난 성능을 보이며, 이러한 추론 능력을 더 작은 모델로 전이하는 것이 유망한 접근법으로 알려져 있습니다. 그러나 우리는 흥미로운 현상을 발견했는데, 이를 '소형 모델 학습 가능성 격차(Small Model Learnability Gap)'라고 명명했습니다. 소형 모델(3B 파라미터 이하)은 긴 사고 연쇄(Chain-of-Thought, CoT) 추론이나 대형 모델로부터의 지식 증류를 통해 일관되게 이점을 얻지 못하는 것으로 나타났습니다. 대신, 이러한 모델들은 본질적인 학습 능력에 더 잘 맞는 짧고 단순한 추론 사슬에 미세 조정(fine-tuning)을 수행할 때 더 나은 성능을 보였습니다. 이를 해결하기 위해 우리는 '혼합 증류(Mix Distillation)'라는 간단하면서도 효과적인 전략을 제안합니다. 이 방법은 긴 CoT 예제와 짧은 CoT 예제를 결합하거나, 대형 모델과 소형 모델의 추론을 혼합함으로써 추론 복잡성을 균형 있게 조정합니다. 실험 결과, 혼합 증류는 단일 데이터로만 학습한 경우에 비해 소형 모델의 추론 성능을 크게 향상시키는 것으로 나타났습니다. 이러한 발견은 강력한 모델로부터의 직접적인 지식 증류의 한계를 드러내며, 효과적인 추론 능력 전이를 위해 추론 복잡성을 적절히 조정하는 것의 중요성을 강조합니다.
선형 어텐션, 상태 공간 모델링, 선형 RNN과 같은 선형 시퀀스 모델링 방법은 학습 및 추론의 복잡도를 줄여 상당한 효율성 개선을 제공합니다. 그러나 이러한 방법들은 일반적으로 전체 입력 시퀀스를 단일 고정 크기의 메모리 상태로 압축하므로, 회상 중심의 다운스트림 작업에서 최적의 성능을 발휘하지 못합니다. 우리는 신경과학, 특히 뇌가 "메모리 간섭"을 완화하면서도 강력한 장기 기억을 유지하는 능력에서 영감을 받아, Mixture-of-Memories (MoM)라는 새로운 아키텍처를 제안합니다. MoM은 여러 독립적인 메모리 상태를 활용하며, 라우터 네트워크가 입력 토큰을 특정 메모리 상태로 안내합니다. 이 접근 방식은 메모리 간섭을 최소화하면서도 전체 메모리 용량을 크게 향상시킵니다. 그 결과, MoM은 회상 중심 작업에서 기존의 선형 시퀀스 모델링 기술을 능가하는 탁월한 성능을 보여줍니다. 여러 메모리 상태를 통합했음에도 불구하고, 각 메모리 상태의 계산은 선형 복잡도를 유지하므로, MoM은 학습 중에는 선형 복잡도의 이점을 유지하고 추론 중에는 상수 복잡도를 유지할 수 있습니다. 우리의 실험 결과는 MoM이 다운스트림 언어 작업, 특히 회상 중심 작업에서 현재의 선형 시퀀스 모델을 크게 능가하며, Transformer 모델과도 비슷한 성능을 달성함을 보여줍니다. 코드는 https://github.com/OpenSparseLLMs/MoM 및 https://github.com/OpenSparseLLMs/Linear-MoE의 일부로 공개되었습니다.
텍스트 임베딩은 일반적으로 언어, 도메인, 작업 다양성에 의해 제한된 소수의 작업들로 평가됩니다. 이러한 한계를 해결하고 더 포괄적인 평가를 제공하기 위해, 우리는 Massive Multilingual Text Embedding Benchmark(MMTEB)를 소개합니다. MMTEB는 MTEB의 대규모 커뮤니티 주도 확장으로, 250개 이상의 언어에 걸쳐 500개 이상의 품질 관리된 평가 작업을 포함합니다. MMTEB는 명령어 수행, 장문서 검색, 코드 검색과 같은 다양한 도전적이고 새로운 작업들을 포함하며, 이는 현재까지 임베딩 모델을 위한 가장 큰 다국어 평가 작업 컬렉션을 대표합니다. 이 컬렉션을 사용하여, 우리는 여러 고도로 다국어 벤치마크를 개발하고 이를 통해 대표적인 모델 집합을 평가합니다. 우리는 수십억 개의 파라미터를 가진 대형 언어 모델(LLM)이 특정 언어 하위 집합과 작업 범주에서 최첨단 성능을 달성할 수 있지만, 공개적으로 사용 가능한 최고 성능 모델은 단 5억 6천만 개의 파라미터를 가진 multilingual-e5-large-instruct임을 발견했습니다. 접근성을 용이하게 하고 계산 비용을 줄이기 위해, 우리는 작업 간 상관 관계를 기반으로 한 새로운 다운샘플링 방법을 도입하여 상대적 모델 순위를 유지하면서도 다양한 선택을 보장합니다. 또한, 우리는 하드 네거티브 샘플링을 통해 검색과 같은 작업을 최적화하여 더 작지만 효과적인 분할을 생성합니다. 이러한 최적화를 통해 우리는 계산 요구를 극적으로 줄이는 벤치마크를 도입할 수 있습니다. 예를 들어, 우리가 새로 도입한 제로샷 영어 벤치마크는 전체 규모 버전과 유사한 순위를 유지하지만 계산 비용은 훨씬 적게 듭니다.
대규모 언어 모델(LLMs)은 사전 학습과 정렬을 통해 뛰어난 능력을 보여주고 있습니다. 그러나 우수한 단문 컨텍스트 LLM은 장문 컨텍스트 시나리오에서 충분한 장문 컨텍스트 정렬이 부족하여 성능이 저하될 수 있습니다. 이러한 정렬 과정은 장문 컨텍스트에 대한 인간 주석의 비현실성과 단문 및 장문 컨텍스트 성능의 균형을 맞추는 어려움으로 인해 여전히 도전적인 과제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 단문 컨텍스트 LLM이 내부적으로 단문 컨텍스트 능력을 전이하여 장문 컨텍스트 작업에서 뛰어나도록 자기 진화할 수 있도록 하는 LongPO를 소개합니다. LongPO는 LLM이 자체 생성한 단문에서 장문으로의 선호도 데이터를 학습하도록 하며, 이 데이터는 동일한 지시에 대해 장문 컨텍스트 입력과 압축된 단문 컨텍스트 입력에 대해 생성된 쌍으로 이루어진 응답들로 구성됩니다. 이 선호도는 단문 컨텍스트 정렬 과정에서 배양된 LLM의 능력과 잠재력을 보여주며, 이는 충분히 정렬되지 않은 장문 컨텍스트 시나리오에서 약화될 수 있습니다. 또한, LongPO는 장문 컨텍스트 정렬 과정에서 단문 컨텍스트 성능 저하를 완화하기 위해 단문에서 장문으로의 KL 제약을 포함합니다. 128K에서 512K 컨텍스트 길이로 Mistral-7B-Instruct-v0.2에 적용했을 때, LongPO는 단문 컨텍스트 성능을 완전히 유지하면서 단순한 SFT와 DPO를 장문 및 단문 컨텍스트 작업 모두에서 크게 능가했습니다. 특히, \ourMethod로 학습된 모델은 광범위한 장문 컨텍스트 주석과 더 큰 매개변수 규모를 포함하는 우수한 LLM(예: GPT-4-128K)의 결과에 필적하거나 이를 능가하는 장문 컨텍스트 벤치마크 결과를 달성할 수 있습니다.
웹 크롤링은 대규모 언어 모델(LLM)의 사전 학습 데이터의 주요 공급원이지만, 데이터 품질이 낮아 대부분의 크롤링된 웹 페이지는 사전 학습 과정에서 폐기됩니다. 본 논문은 LLM 사전 학습의 선호도를 기반으로 웹 그래프를 탐색하는 효율적인 웹 크롤링 방법인 Crawl4LLM을 제안합니다. 구체적으로, 이 방법은 웹 페이지의 LLM 사전 학습에 미치는 영향을 웹 크롤러 스케줄러의 우선순위 점수로 활용하여, 기존의 그래프 연결성 기반 우선순위를 대체합니다. 상용 검색 엔진의 인덱스에서 추출한 9억 개의 웹 페이지로 구성된 웹 그래프에 대한 실험을 통해, Crawl4LLM이 고품질 사전 학습 데이터를 획득하는 데 있어 효율적임을 입증했습니다. 단지 21%의 URL만 크롤링함으로써, Crawl4LLM 데이터로 사전 학습된 LLM은 이전 크롤링과 동등한 다운스트림 성능을 달성하여 크롤링 낭비를 크게 줄이고 웹사이트에 대한 부담을 완화했습니다. 본 연구의 코드는 https://github.com/cxcscmu/Crawl4LLM에서 공개되어 있습니다.
대형 언어 모델(LLM) 애플리케이션은 단순한 챗봇을 넘어 동적이고 범용적인 에이전트 프로그램으로 진화하고 있으며, 이를 통해 LLM 호출과 출력 토큰을 확장하여 AI 에이전트가 복잡한 작업을 추론, 탐색 및 해결할 수 있도록 지원합니다. 그러나 기존의 LLM 서빙 시스템은 프로그램과 호출 간의 의존성을 무시함으로써 최적화의 중요한 기회를 놓치고 있습니다. 우리의 분석에 따르면, LLM 서빙 엔진에 제출된 프로그램은 개별 LLM 요청과 프로그램 모두에서 선두 차단(head-of-line blocking)으로 인해 누적 대기 시간이 길어지는 것으로 나타났습니다. 이를 해결하기 위해 우리는 프로그램을 일급 객체로 취급하여 종단 간 지연 시간을 최소화하는 LLM 서빙 시스템인 Autellix를 소개합니다. Autellix는 프로그램이 제출한 LLM 호출을 가로채어 스케줄러에 프로그램 수준의 컨텍스트를 제공합니다. 우리는 단일 스레드 프로그램과 분산 프로그램을 위한 두 가지 스케줄링 알고리즘을 제안하며, 이 알고리즘은 프로그램의 이전에 완료된 호출을 기반으로 LLM 호출을 선점하고 우선순위를 부여합니다. 평가 결과, 다양한 LLM과 에이전트 워크로드에서 Autellix는 vLLM과 같은 최신 시스템과 동일한 지연 시간에서 프로그램의 처리량을 4~15배 향상시키는 것으로 나타났습니다.
지도 미세조정(Supervised Fine-Tuning, SFT)은 상대적으로 작은 대형 언어 모델(LLM)의 긴 사고 연쇄(Chain-of-Thought, CoT) 추론 능력을 향상시키기 위해 널리 사용되고 효과적인 방법으로, 더 큰 LLM의 긴 CoT 응답을 사용하여 미세조정을 수행합니다. 추론 능력을 지속적으로 개선하기 위해서는 새로운 고품질의 긴 CoT 추론 SFT 데이터를 수집하거나 기존 SFT 데이터셋을 반복적으로 학습할 수 있습니다. 그러나 새로운 긴 CoT SFT 데이터를 획득하는 것은 비용이 많이 들고 제한적이며, 반복 학습은 종종 성능 정체 또는 하락을 초래합니다. SFT 데이터를 활용하여 성능을 더욱 향상시키기 위해, 우리는 새로운 긴 CoT 응답 없이도 긴 CoT 추론을 강화할 수 있는 간단하면서도 효과적인 SFT 후속 방법인 사고 선호 최적화(Thinking Preference Optimization, ThinkPO)를 제안합니다. ThinkPO는 동일한 질문에 대해 쉽게 구할 수 있는 짧은 CoT 추론 응답을 거부된 답변으로, 긴 CoT 응답을 선택된 답변으로 사용합니다. 그런 다음 직접 선호 최적화(Direct Preference Optimization)를 적용하여 모델이 더 긴 추론 출력을 선호하도록 유도합니다. 실험 결과, ThinkPO는 SFT된 모델의 추론 성능을 추가로 개선하며, 예를 들어 수학 추론 정확도를 8.6% 증가시키고 출력 길이를 25.9% 늘립니다. 특히, ThinkPO는 공개적으로 증류된 SFT 모델의 성능을 지속적으로 향상시킬 수 있으며, 공식 DeepSeek-R1-Distill-Qwen-7B 모델의 MATH500 성능을 87.4%에서 91.2%로 증가시킵니다.
대형 언어 모델(LLMs)은 일반적인 영역에서 뛰어난 능력을 보여주지만, 전문 지식이 필요한 작업에서는 종종 어려움을 겪습니다. 기존의 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술은 일반적으로 정적 지식 기반에서 외부 정보를 검색하는데, 이는 구식이거나 불완전할 수 있으며, 정확한 의학 질문 응답에 필수적인 세부적인 임상 정보를 놓칠 수 있습니다. 본 연구에서는 이러한 한계를 극복하기 위해 실시간 검색 엔진을 활용한 새로운 프레임워크인 SearchRAG를 제안합니다. 우리의 방법은 복잡한 의학 질문을 검색 엔진 친화적인 쿼리로 변환하기 위해 합성 쿼리 생성을 사용하고, 불확실성 기반 지식 선택을 통해 가장 관련성이 높고 유익한 의학 지식을 필터링하여 LLM의 입력에 통합합니다. 실험 결과는 우리의 방법이 특히 상세하고 최신 지식이 필요한 복잡한 질문에 대해 의학 질문 응답 작업에서 응답 정확도를 크게 향상시킨다는 것을 보여줍니다.
대규모 언어 모델(LLMs)은 뛰어난 작업 일반화 능력으로 자연어 처리 분야를 크게 발전시켰습니다. 저랭크 적응(LoRA)은 원본 모델 파라미터를 고정하고 경량의 저랭크 어댑터 행렬만을 훈련시키는 비용 효율적인 미세 조정 솔루션을 제공합니다. 그러나 LoRA의 메모리 사용량은 주로 원본 모델 파라미터에 의해 지배됩니다. 이를 완화하기 위해, 우리는 과매개변수화된 LLMs의 많은 뉴런이 훈련 유용성은 낮지만 추론에는 필수적이라는 직관에 기반한 메모리 효율적인 LoRA 훈련 기법인 LoRAM을 제안합니다. LoRAM은 독특한 접근 방식을 취합니다: 가지치기된 (작은) 모델에서 훈련하여 가지치기된 저랭크 행렬을 얻은 후, 이를 원본 (큰) 모델과 함께 복원하여 추론에 활용합니다. 또한, 모델 출판사가 사전에 수행하는 최소 비용의 지속적 사전 훈련은 가지치기된 모델과 원본 모델 간의 지식 차이를 조정합니다. 우리의 광범위한 실험은 다양한 가지치기 전략과 다운스트림 작업에서 LoRAM의 효율성을 입증합니다. 700억 개의 파라미터를 가진 모델의 경우, LoRAM은 20G HBM의 GPU에서 훈련을 가능하게 하여 LoRA 훈련을 위한 A100-80G GPU와 전체 미세 조정을 위한 15개의 GPU를 대체합니다. 특히, 구조적 가지치기와 4비트 양자화를 결합한 QLoRAM은 LLaMA-3.1-70B (LLaMA-2-70B)의 경우, 저랭크 행렬 훈련에서 메모리 사용을 지배하는 파라미터 저장 비용을 15.81배 (16.95배) 줄이면서도 원본 LLaMA-3.1-70B (LLaMA-2-70B)와 LoRA로 훈련된 LLaMA-3.1-8B (LLaMA-2-13B) 모두를 압도하는 성능 향상을 달성합니다.
이름은 인간의 정체성과 깊이 연관되어 있습니다. 이름은 개성, 문화적 유산, 개인적 역사의 표지로 기능할 수 있습니다. 그러나 이름을 정체성의 핵심 지표로 사용하는 것은 복잡한 정체성을 지나치게 단순화할 위험이 있습니다. 대형 언어 모델(LLM)과 상호작용할 때, 사용자 이름은 개인화를 위한 중요한 정보 요소입니다. 이름은 챗봇이 요청한 직접적인 사용자 입력, 이력서 검토와 같은 작업 맥락, 또는 개인화를 위해 사용자 정보를 저장하는 내장 메모리 기능을 통해 챗봇 대화에 포함될 수 있습니다. 우리는 LLM이 제시된 일반적인 조언 요청 질문에 대해 생성한 응답에서 문화적 가정을 측정함으로써 이름과 관련된 편향을 연구합니다. 이러한 질문은 사용자에 대한 가정을 포함할 수 있습니다. 우리의 분석은 여러 문화권에서 LLM 생성물에 나타나는 이름과 관련된 문화적 정체성에 대한 강한 가정을 보여줍니다. 이 연구는 고정관념을 강화하지 않으면서도 의미 있는 맞춤화를 유지하는 더욱 세심한 개인화 시스템 설계에 시사점을 제공합니다.
대규모 언어 모델(LLM)의 안전성 정렬은 여전히 취약하며, 상대적으로 단순한 공격에도 초기 행동이 쉽게 '탈옥(jailbroken)'될 수 있습니다. 기존 LLM에서는 입력 지시와 초기 모델 출력 사이에 고정된 템플릿을 삽입하는 것이 일반적인 관행인데, 우리는 이 템플릿이 이러한 취약성의 핵심 요인이라고 가정합니다: LLM의 안전 관련 의사결정은 템플릿 영역에서 집계된 정보에 지나치게 의존하며, 이는 모델의 안전 행동에 큰 영향을 미칩니다. 우리는 이 문제를 '템플릿 고정형 안전성 정렬(template-anchored safety alignment)'이라고 부릅니다. 본 논문에서는 광범위한 실험을 통해 템플릿 고정형 안전성 정렬이 다양한 정렬된 LLM에 걸쳐 널리 퍼져 있음을 확인했습니다. 우리의 기계적 분석은 이 문제가 추론 시간에 발생하는 탈옥 공격에 대한 모델의 취약성을 어떻게 초래하는지를 보여줍니다. 또한, 안전 메커니즘을 템플릿 영역에서 분리하는 것이 탈옥 공격에 대한 취약성을 완화하는 데 유망하다는 것을 입증합니다. 우리는 향후 연구가 템플릿 영역에 대한 의존도를 줄이는 더 강력한 안전성 정렬 기술을 개발할 것을 권장합니다.
현재 프로세스 보상 모델(PRM)을 훈련하기 위한 접근 방식은 주로 미리 정의된 플레이스홀더 토큰을 사용하거나 추론 단계의 길이를 고정된 크기로 설정하는 등 규칙 기반 기법을 통해 응답을 여러 추론 단계로 분할하는 방식을 취합니다. 이러한 접근 방식은 특정 단어가 텍스트 내에서 진정한 의사결정 지점을 표시하지 않는다는 사실을 간과하고 있습니다. 이를 해결하기 위해, 우리는 모델이 다음 단어를 예측하는 데 대한 확신을 기반으로 추론 단계를 분할하는 AdaptiveStep 방법을 제안합니다. 이 분할 방법은 각 단계에서 더 많은 의사결정 정보를 제공함으로써 보상 모델 학습과 같은 다운스트림 작업을 향상시킵니다. 또한, 우리의 방법은 수동 주석이 필요하지 않습니다. 우리는 수학적 추론 및 코드 생성 작업에서 AdaptiveStep으로 훈련된 PRM을 통해 그 효과를 입증합니다. 실험 결과는 결과 PRM이 토큰 수준의 값 기반 디코딩을 사용한 탐욕적 탐색 전략을 능가하는 최신 Best-of-N 성능을 달성하는 동시에, 기존 오픈소스 PRM 대비 구축 비용을 30% 이상 절감함을 보여줍니다. 또한, 우리는 PRM의 성능, 전이성 및 일반화 능력에 대한 심층 분석과 사례 연구를 제공합니다.
3D 분자 생성은 신약 개발과 소재 설계에 있어 핵심적인 역할을 합니다. 기존 연구들은 연속적인 3D 구조체 모델링의 장점을 활용한 3D 확산 모델에 초점을 맞추었지만, 100% 유효한 분자를 생성할 수 있고 수십억 규모의 1D 분자 데이터셋을 활용할 수 있는 1D SELFIES 기반 언어 모델(LM)의 이점을 간과했습니다. 이러한 장점을 3D 분자 생성에 결합하기 위해, 우리는 NExT-Mol이라는 기초 모델을 제안합니다: 3D 분자 생성을 위한 3D 확산 모델과 1D 언어 모델의 융합. NExT-Mol은 광범위하게 사전 학습된 분자 LM을 사용하여 1D 분자를 생성한 후, 3D 확산 모델을 통해 생성된 분자의 3D 구조체를 예측합니다. 우리는 LM의 모델 크기를 확장하고, 확산 신경망 아키텍처를 개선하며, 1D에서 3D로의 전이 학습을 적용하여 NExT-Mol의 성능을 향상시켰습니다. 특히, 우리의 1D 분자 LM은 유효성을 보장하면서 분포 유사성에서 기준 모델을 크게 능가하며, 3D 확산 모델은 구조체 예측에서 최고 수준의 성능을 달성합니다. 이러한 1D 및 3D 모델링의 개선을 통해, NExT-Mol은 GEOM-DRUGS 데이터셋에서 de novo 3D 생성에 대해 3D FCD에서 26%의 상대적 개선을, QM9-2014 데이터셋에서 조건부 3D 생성에 대해 평균 13%의 상대적 이득을 달성했습니다. 우리의 코드와 사전 학습된 체크포인트는 https://github.com/acharkq/NExT-Mol에서 확인할 수 있습니다.
대형 언어 모델(LLM)과 멀티모달 대형 언어 모델(MLLM)은 추론 능력에서 상당한 발전을 이루었습니다. 그러나 여전히 높은 계산 요구량과 프라이버시 문제와 같은 과제에 직면해 있습니다. 본 논문은 경쟁력 있는 추론 능력을 유지하면서도 효율적인 소형 언어 모델(SLM)과 멀티모달 소형 언어 모델(MSLM)을 개발하는 데 초점을 맞춥니다. 우리는 추론 능력을 향상시키고 엣지 디바이스에서의 배포를 용이하게 하는 새로운 훈련 파이프라인을 소개하며, 개발 비용을 최소화하면서도 최첨단 성능을 달성합니다. \InfR~은 더 작은 모델 크기를 통해 추론 능력을 개선하고, 도입 장벽을 낮추며, 프라이버시 문제를 해결함으로써 AI 시스템의 발전을 목표로 합니다. 관련 리소스는 https://github.com/Reallm-Labs/InfiR에서 확인할 수 있습니다.
현대 인공지능의 기반이 되는 머신러닝은 세상을 근본적으로 변화시킨 혁신을 이끌어왔습니다. 그러나 이러한 발전 뒤에는 복잡하고 종종 지루한 과정이 있으며, 이는 노동력과 컴퓨팅 자원을 집중적으로 요구하는 반복적 실험을 필요로 합니다. 머신러닝 모델을 개발하는 엔지니어와 과학자들은 혁신적인 솔루션이나 연구 가설을 구상하는 대신, 시행착오 작업에 많은 시간을 할애합니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(LLMs)로 구동되는 머신러닝 엔지니어링 에이전트인 AI-Driven Exploration(AIDE)을 소개합니다. AIDE는 머신러닝 엔지니어링을 코드 최적화 문제로 정의하고, 잠재적 솔루션 공간에서의 시행착오를 트리 탐색으로 공식화합니다. 유망한 솔루션을 전략적으로 재사용하고 개선함으로써, AIDE는 컴퓨팅 자원을 성능 향상과 교환하여, Kaggle 평가, OpenAI MLE-Bench 및 METRs RE-Bench를 포함한 여러 머신러닝 엔지니어링 벤치마크에서 최첨단 결과를 달성합니다.
우리는 최신 지시 조정 확산 모델을 능가하고, 강력한 자기회귀(AR) 모델과도 견줄 만하며 때로는 이를 뛰어넘는 범용 지시 수행 확산 언어 모델인 TESS 2를 소개합니다. TESS 2는 먼저 강력한 AR 모델을 확산 손실로 일반적인 교차 엔트로피를 사용한 지속적 사전 학습을 통해 적응시킨 후, 추가적인 지시 튜닝을 수행하여 학습합니다. 우리는 적응 학습과 기본 모델 선택이 우수한 지시 수행 확산 모델을 학습하는 데 있어 중요하다는 사실을 발견했습니다. 또한, 기본 모델을 재학습할 필요 없이 모델 출력을 정렬할 수 있는 모듈식 추론 시 지도 절차인 보상 지도를 제안합니다. 마지막으로, TESS 2가 추론 시 사용되는 계산량에 대한 세밀한 제어 가능성을 통해 증가된 추론 계산량으로 더욱 개선됨을 보여줌으로써 확산 언어 모델의 유용성을 강조합니다. 코드와 모델은 https://github.com/hamishivi/tess-2에서 확인할 수 있습니다.
장기적이고 개방된 도메인의 대화 능력은 과거 상호작용을 기억하고 감성 지능(EI)을 보여주는 것을 목표로 하는 챗봇에게 필수적입니다. 그러나 대부분의 기존 연구는 합성적이고 대형 언어 모델(LLM)이 생성한 데이터에 의존하고 있어, 실제 세계의 대화 패턴에 대한 의문을 남기고 있습니다. 이러한 격차를 해결하기 위해, 우리는 실제 메시징 앱 대화로 구성된 21일간의 코퍼스인 REALTALK를 소개하며, 이는 진정한 인간 상호작용에 대한 직접적인 벤치마크를 제공합니다. 우선, 데이터셋 분석을 수행하여 EI 속성과 페르소나 일관성에 초점을 맞추어 실제 세계 대화가 제기하는 독특한 도전 과제를 이해합니다. LLM이 생성한 대화와 비교함으로써, 합성 대화가 종종 포착하지 못하는 다양한 감정 표현과 페르소나 안정성의 변동성과 같은 주요 차이점을 강조합니다. 이러한 통찰을 바탕으로, 우리는 두 가지 벤치마크 과제를 소개합니다: (1) 특정 사용자를 대신하여 이전 대화 맥락을 고려하여 대화를 이어가는 페르소나 시뮬레이션; (2) 과거 상호작용의 장기 기억을 요구하는 타겟 질문에 답하는 메모리 프로빙. 우리의 연구 결과는 모델이 대화 기록만으로 사용자를 시뮬레이션하는 데 어려움을 겪는 반면, 특정 사용자의 채팅에 대한 미세 조정은 페르소나 모방을 개선한다는 것을 보여줍니다. 또한, 기존 모델들은 실제 세계 대화 내에서 장기 맥락을 기억하고 활용하는 데 상당한 어려움을 겪고 있습니다.
대규모 언어 모델(LLM)을 활용한 관련성 평가는 정보 검색(IR), 자연어 처리(NLP) 및 관련 분야의 개선을 위한 유망한 기회를 제공합니다. 실제로, LLM은 IR 실험자들이 현재 요구되는 수동 인력의 일부만으로 평가 컬렉션을 구축할 수 있게 해줄 가능성이 있습니다. 이는 아직 지식이 제한적인 최신 주제에 도움을 줄 수 있으며, 인간 평가자를 찾기 어려운 저자원 시나리오에서 순위 시스템 평가의 어려움을 완화할 수 있습니다. 이 분야의 빠른 발전 속도를 고려할 때, LLM을 평가자로 사용하는 것과 관련된 많은 질문들이 아직 해결되지 않았습니다. 추가 연구가 필요한 측면 중에는 프롬프트나 선택된 LLM과 같은 관련성 판단 생성 파이프라인의 다양한 구성 요소의 영향이 포함됩니다. 이 논문은 SIGIR 2024에서 개최된 대규모 자동 관련성 판단 평가인 LLMJudge 챌린지의 결과를 벤치마킹하고 보고합니다. 구체적으로, 우리는 이 챌린지에 참여한 8개 국제 팀이 생성한 TREC 2023 딥러닝 트랙 관련성 판단의 42개 LLM 생성 레이블을 공개하고 벤치마킹합니다. 이 자동 생성된 관련성 판단은 그 다양성 덕분에 커뮤니티가 LLM에 의해 발생하는 체계적 편향을 조사할 뿐만 아니라 앙상블 모델의 효과를 탐구하고, 다양한 모델과 인간 평가자 간의 트레이드오프를 분석하며, 자동 평가 기술을 개선하기 위한 방법론을 발전시키는 데 도움을 줄 수 있습니다. 공개된 리소스는 다음 링크에서 확인할 수 있습니다: https://llm4eval.github.io/LLMJudge-benchmark/
대규모 언어 모델(LLM)은 다양한 작업을 위해 업무 환경에서 점점 더 많이 사용되고 있으며, 개별 문제를 고립된 상태에서 해결하는 데 탁월한 성능을 보입니다. 그러나 이러한 모델들이 장기적인 상호작용을 통해 효과적으로 협업할 수 있을까요? 이를 조사하기 위해 우리는 MemoryCode라는 합성 다중 세션 데이터셋을 도입했습니다. 이 데이터셋은 LLM이 관련 없는 정보 속에서 간단한 코딩 지시사항을 추적하고 실행하는 능력을 테스트하도록 설계되었으며, 현실적인 환경을 시뮬레이션합니다. 우리가 테스트한 모든 모델은 고립된 지시사항을 잘 처리하지만, GPT-4o와 같은 최첨단 모델조차도 지시사항이 여러 세션에 걸쳐 분산될 경우 성능이 저하됩니다. 우리의 분석에 따르면, 이는 장기적인 지시사항 체인에 걸쳐 정보를 검색하고 통합하는 데 실패하기 때문입니다. 우리의 결과는 현재 LLM의 근본적인 한계를 보여주며, 이는 장기적인 상호작용에서 효과적으로 협업하는 능력을 제한합니다.
생성적 추천(Generative Recommendation, GR)은 사용자 행동을 이산적인 토큰 패턴으로 토큰화하고 이를 자동회귀적으로 예측값으로 생성하는 새로운 패러다임입니다. 그러나 기존의 GR 모델들은 각 행동을 독립적으로 토큰화하여, 모든 시퀀스에서 동일한 행동에 대해 고정된 동일한 토큰을 할당함으로써 문맥적 관계를 고려하지 않습니다. 이러한 문맥 인식의 부재는 동일한 행동이 주변 문맥에 따라 다른 의미를 가질 수 있기 때문에 최적이 아닌 성능을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 행동 시퀀스를 토큰화할 때 문맥을 명시적으로 통합하는 ActionPiece를 제안합니다. ActionPiece에서는 각 행동이 아이템 특성들의 집합으로 표현되며, 이들이 초기 토큰으로 사용됩니다. 행동 시퀀스 코퍼스가 주어지면, 우리는 개별 집합 내에서와 인접한 집합 간의 동시 발생 빈도를 기반으로 특성 패턴들을 병합하여 새로운 토큰으로 어휘를 구성합니다. 특성 집합의 비순서적 특성을 고려하여, 우리는 동일한 의미를 가지는 행동 시퀀스의 다중 분할을 생성하는 집합 순열 정규화(set permutation regularization)를 추가로 도입합니다. 공개 데이터셋에서의 실험 결과, ActionPiece는 기존의 행동 토큰화 방법들을 일관되게 능가하며, NDCG@10을 6.00%에서 12.82%까지 향상시킴을 보여줍니다.
대형 언어 모델(LLM) 출력에서 발생하는 환각(hallucination) 현상은 질의응답과 같은 지식 집약적 작업에서의 신뢰성을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 검색된 문서를 직접 활용하여 LLM 출력 내 환각 구간을 탐지하는 새로운 프레임워크인 REFIND(Retrieval-augmented Factuality hallucINation Detection)를 소개합니다. REFIND의 일환으로, 우리는 LLM 출력이 검색된 증거에 대해 얼마나 민감한지를 정량화하는 새로운 지표인 Context Sensitivity Ratio(CSR)를 제안합니다. 이 혁신적인 접근 방식은 REFIND가 기존 방법과 차별화되며, 효율적이고 정확하게 환각을 탐지할 수 있게 합니다. 평가에서 REFIND는 저자원 환경을 포함한 9개 언어에서 강건성을 보였으며, 기준 모델을 크게 능가하며 환각 구간 식별에서 우수한 IoU 점수를 달성했습니다. 이 연구는 환각 탐지를 위한 문맥 민감도 정량화의 효과를 입증함으로써, 다양한 언어에서 더 신뢰할 수 있고 신뢰성 있는 LLM 애플리케이션의 길을 열었습니다.
다중 선택형 질문 응답(MCQA)은 그 간결성과 인간과 유사한 테스트 방식으로 인해 대형 언어 모델(LLM) 평가에 널리 사용되지만, 우리는 이를 개선할 필요가 있다고 주장한다. 먼저, MCQA 형식의 결점을 밝히는데, 이는 1) 생성 능력과 주관성을 테스트하기 어렵고, 2) LLM 사용 사례와 부합하지 않으며, 3) 지식을 완전히 테스트하지 못한다는 점이다. 대신, 우리는 인간 테스트를 기반으로 한 생성형 형식을 지지한다. 이 형식에서는 LLM이 답변을 구성하고 설명함으로써 사용자 요구와 지식을 더 잘 포착하면서도 채점이 용이하다. 또한, MCQA가 유용한 형식일지라도, 그 데이터셋은 정보 누출, 답변 불가능성, 지름길, 포화 상태 등의 문제를 겪고 있다. 각 문제에 대해, 우리는 교육학에서의 해결책을 제시한다. 예를 들어, MCQ 작성을 안내하는 채점 기준, 추측을 억제하는 채점 방법, 더 어려운 MCQ를 구성하기 위한 문항 반응 이론 등이 있다. 마지막으로, 우리는 MCQA에서의 LLM 오류—강건성, 편향, 신뢰할 수 없는 설명—를 논의하며, 앞서 제시한 해결책이 이러한 문제를 더 잘 측정하거나 해결할 수 있음을 보인다. MCQA를 완전히 버릴 필요는 없지만, 교육적 테스트를 기반으로 과제를 개선하고 평가를 발전시키기 위한 더 많은 노력을 촉구한다.
대형 시각-언어 모델(LVLMs)은 최근 그 독보적인 성능과 광범위한 적용 가능성으로 주목받고 있습니다. 비서구적 맥락을 포함한 사용 시나리오에서 이들의 효용성이 부족하다는 점은 이전에 밝혀졌지만, 기존 연구들은 단일 작업에 대해 소수의 모델만을 평가하거나, 좁은 범위의 문화를 다루거나, 소수의 문화적 측면에만 초점을 맞추는 등 제한된 범위에 그쳤습니다. 전 세계적으로 포괄적인 LVLM 연구를 위해, 우리는 6개의 글로벌 대지역을 대표하는 144개 국가에 걸친 광범위한 문화적 지식을 평가하기 위해 설계된 종합적인 멀티모달 벤치마크인 GIMMICK을 소개합니다. GIMMICK은 728개의 독특한 문화적 사건 또는 측면을 기반으로 구축된 6개의 작업으로 구성되며, 여기서 우리는 5개의 독점 모델과 26개의 오픈 웨이트 모델을 포함한 총 20개의 LVLM과 11개의 LLM을 평가했습니다. 우리는 (1) 지역적 문화 편향, (2) 모델 크기의 영향, (3) 입력 양식, (4) 외부 단서를 체계적으로 조사했습니다. 우리의 분석은 모델과 작업 전반에 걸쳐 서구 문화에 대한 강한 편향을 드러내며, 모델 크기와 성능 간의 강한 상관관계와 멀티모달 입력 및 외부 지리적 단서의 효과를 강조합니다. 또한, 모델들은 무형의 측면(예: 의식)보다 유형의 측면(예: 음식)에 대한 지식이 더 풍부하며, 광범위한 문화적 기원을 인식하는 데는 뛰어나지만 더 미묘한 이해에는 어려움을 겪는 것으로 나타났습니다.
기존의 다국어 시각-언어(VL) 벤치마크는 주로 소수의 언어만을 다루고 있습니다. 이로 인해 대규모 시각-언어 모델(LVLM)의 평가는 주로 고자원 언어를 대상으로 이루어지며, 저자원 언어에 대한 평가 데이터의 필요성이 강조되고 있습니다. 이러한 한계를 해결하기 위해, 우리는 205개 언어에 걸쳐 교차 모달 및 텍스트 전용 주제 매칭을 평가하는 대규모 다국어 시각-언어 벤치마크인 MVL-SIB를 소개합니다. 이는 기존의 가장 다국어적인 VL 벤치마크보다 100개 이상 많은 언어를 포함합니다. 그런 다음, MVL-SIB에서 다양한 오픈 웨이트 LVLM과 GPT-4o(-mini)를 벤치마크했습니다. 우리의 결과는 LVLM이 저자원 언어에서 교차 모달 주제 매칭에 어려움을 겪으며, N'Koo와 같은 언어에서는 우연 수준의 성능을 보인다는 것을 보여줍니다. 우리의 분석은 더 나아가, 교차 모달 및 텍스트 전용 주제 매칭 성능을 비교함으로써, LVLM의 VL 지원이 저자원 언어에 대해 텍스트 지원에 비해 불균형적으로 감소한다는 것을 보여줍니다. 또한, 오픈 웨이트 LVLM이 하나 이상의 이미지로 주제를 표현하는 데 이점을 얻지 못한다는 것을 관찰했으며, 이는 이러한 모델이 아직 다중 이미지 작업을 효과적으로 처리하지 못한다는 것을 시사합니다. MVL-SIB의 성능을 다른 다국어 VL 벤치마크와 상관 관계를 분석함으로써, MVL-SIB가 LVLM의 다국어 VL 이해를 종합적으로 탐구하는 도구로 기능한다는 것을 강조합니다.
최근 신시점 합성(Novel View Synthesis, NVS) 분야에서의 발전에도 불구하고, 단일 또는 희소 관측으로부터 고해상도 뷰를 생성하는 것은 여전히 큰 과제로 남아 있습니다. 기존의 스플래팅(splatting) 기반 접근법은 스플래팅 오류로 인해 왜곡된 기하학적 구조를 생성하는 경우가 많습니다. 반면, 확산(diffusion) 기반 방법은 풍부한 3D 사전 지식을 활용하여 개선된 기하학적 구조를 달성하지만, 텍스처 환각(texture hallucination) 문제를 자주 겪습니다. 본 논문에서는 단일 이미지로부터 고해상도의 새로운 뷰를 합성하기 위해 픽셀 스플래팅 기반 비디오 확산 모델인 SplatDiff를 소개합니다. 구체적으로, 우리는 정확한 타겟 시점 제어와 기하학적으로 일관된 뷰 합성을 위한 정렬된 합성 전략을 제안합니다. 텍스처 환각을 완화하기 위해, 적응형 특징 융합을 통해 고해상도 텍스처 생성을 가능하게 하는 텍스처 브리지 모듈을 설계했습니다. 이러한 방식으로 SplatDiff는 스플래팅과 확산의 장점을 활용하여 일관된 기하학적 구조와 고해상도 디테일을 가진 새로운 뷰를 생성합니다. 광범위한 실험을 통해 SplatDiff가 단일 뷰 NVS에서 최첨단 성능을 보임을 검증했습니다. 또한, 추가 학습 없이도 SplatDiff는 희소 뷰 NVS 및 스테레오 비디오 변환과 같은 다양한 작업에서 뛰어난 제로샷(zero-shot) 성능을 보여줍니다.
준지도 이종 도메인 적응(Semi-supervised Heterogeneous Domain Adaptation, SHDA)은 서로 다른 특성 표현과 분포를 가진 도메인 간의 학습 문제를 다룹니다. 여기서 소스 도메인의 샘플은 레이블이 지정되어 있지만, 타겟 도메인의 대부분의 샘플은 레이블이 없으며, 극소수만 레이블이 지정되어 있습니다. 또한, 소스와 타겟 샘플 간에 일대일 대응 관계가 존재하지 않습니다. 이러한 문제를 해결하기 위해 다양한 SHDA 방법들이 개발되었지만, 이종 도메인 간에 전달되는 지식의 본질은 여전히 명확하지 않습니다. 본 논문은 이 문제를 실증적 관점에서 탐구합니다. 우리는 두 가지 지도 학습 방법과 일곱 가지 대표적인 SHDA 방법을 사용하여 약 330개의 SHDA 작업에 대한 광범위한 실험을 수행했습니다. 놀랍게도, 우리의 관찰 결과에 따르면 소스 샘플의 카테고리 정보와 특성 정보 모두 타겟 도메인의 성능에 큰 영향을 미치지 않는 것으로 나타났습니다. 또한, 단순한 분포에서 추출된 노이즈를 소스 샘플로 사용할 경우 전이 가능한 지식을 포함할 수 있음을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 SHDA에서 전이 가능한 지식의 근본 원리를 밝히기 위해 일련의 실험을 수행했습니다. 구체적으로, 우리는 SHDA를 위한 통합 지식 전이 프레임워크(Knowledge Transfer Framework, KTF)를 설계했습니다. KTF를 기반으로, 우리는 SHDA에서 전이 가능한 지식이 주로 소스 도메인의 전이 가능성과 판별 가능성에서 비롯된다는 것을 발견했습니다. 결과적으로, 소스 샘플의 출처(예: 이미지, 텍스트, 노이즈)와 관계없이 이러한 특성을 보장하는 것이 SHDA 작업에서 지식 전이의 효과를 향상시킬 수 있습니다. 코드와 데이터셋은 https://github.com/yyyaoyuan/SHDA에서 확인할 수 있습니다.
자연어 질문에서 SPARQL 쿼리를 생성하는 능력은 지식 그래프(KG)로부터 구조화된 데이터를 효율적이고 정확하게 검색하는 데 있어 핵심적입니다. 대규모 언어 모델(LLM)이 SPARQL 쿼리 생성에 널리 사용되고 있지만, 내부 파라미터 지식을 기반으로 Uniform Resource Identifier(URI)와 같은 KG 요소를 생성할 때 환각(hallucination) 및 분포 외 오류(out-of-distribution error)에 취약한 경우가 많습니다. 이는 사실적으로는 잘못되었지만 그럴듯해 보이는 내용을 생성하게 하여, 실제 정보 검색(IR) 애플리케이션에서의 사용에 상당한 어려움을 초래합니다. 이로 인해 이러한 오류를 탐지하고 완화하기 위한 연구가 활발히 진행되고 있습니다. 본 논문에서는 비파라미터 메모리 모듈을 통합하여 KG 요소를 검색하고 LLM 기반 SPARQL 쿼리 생성을 강화하는 모듈식 프레임워크인 PGMR(Post-Generation Memory Retrieval)을 소개합니다. 실험 결과, PGMR는 다양한 데이터셋, 데이터 분포 및 LLM에서 일관되게 강력한 성능을 보여주었습니다. 특히, PGMR는 URI 환각을 크게 완화하여 여러 시나리오에서 이 문제를 거의 제거했습니다.