번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)은 가상 인물 시뮬레이션을 포함한 창의적 생성 작업에 점점 더 많이 활용되고 있습니다. 그러나 비친사회적이고 적대적인 인격체를 구현하는 모델의 능력은 대체로 연구되지 않은 상태입니다. 우리는 현대 LLM의 안전성 정렬이 도덕적으로 모호하거나 악당적인 캐릭터를 진정성 있게 역할 수행하는 작업과 근본적인 충돌을 일으킨다고 가정합니다. 이를 조사하기 위해 4단계 도덕적 성향 척도와 엄격한 평가를 위한 균형 잡힌 테스트 세트로 구성된 새로운 데이터 세트인 Moral RolePlay 벤치마크를 소개합니다. 우리는 최첨단 LLM에 도덕적 귀감부터 순수 악당에 이르는 다양한 캐릭터 역할 수행을 부여합니다. 대규모 평가 결과, 캐릭터의 도덕성이 낮아질수록 역할 수행 충실도가 일관되게 단조 감소하는 현상을 확인했습니다. 모델은 '기만적', '조종적'과 같이 안전성 원칙에 정반되는 특성을 구현하는 데 가장 큰 어려움을 보였으며, 종종 미묘한 악의를 피상적인 공격성으로 대체하는 경향이 있었습니다. 또한 일반 챗봇 성능은 악당 역할 수행 능력을 예측하는 데 부적합한 지표이며, 특히 안전성 정렬이 강한 모델일수록 성능이 현저히 낮다는 점을 입증했습니다. 본 연구는 모델 안전성과 창의적 충실도 간의 핵심적인 긴장 관계를 부각시키며, 이러한 중대한 한계에 대한 첫 번째 체계적 증거를 제시합니다. 우리의 벤치마크와 연구 결과는 더욱 세분화되고 상황 인식적인 정렬 방법 개발의 길을 열어줍니다.
시각 입력에서 공간 관계를 포착하는 것은 인간과 유사한 일반 지능의 핵심 요소입니다. 기존 여러 연구에서는 특화된 전문 인코더를 추가하여 Vision-Language 모델(VLM)의 공간 인식을 향상시키려 시도했으나, 이는 추가적인 부담을 주고 일반적인 능력을 저해하는 경우가 많았습니다. 일반적인 아키텍처에서 공간 능력을 강화하기 위해, 우리는 인간과 유사한 시공간 능력(공간 인지부터 추론까지)을 VLM에 함양시키는 포괄적인 프레임워크인 Visual Spatial Tuning(VST)을 소개합니다. 먼저 단일 뷰, 다중 이미지, 비디오에 걸친 19개 영역의 410만 개 샘플로 구성된 대규모 데이터셋 VST-P를 구축하여 VLM의 공간 인지 향상을 시도합니다. 다음으로, 모델이 공간적으로 추론하도록 지시하는 135,000개 샘플로 구성된 정제된 데이터셋 VST-R을 제시합니다. 특히 우리는 지도 미세 조정으로 기본적인 공간 지식을 구축한 후, 강화 학습을 통해 공간 추론 능력을 더욱 향상시키는 점진적인 학습 파이프라인을 채택합니다. 일반적인 능력에 부작용 없이, 제안된 VST는 MMSI-Bench에서 34.8%, VSIBench에서 61.2%를 포함한 여러 공간 벤치마크에서 최첨단 성능을 일관되게 달성합니다. 제안된 공간 튜닝 패러다임을 통해 Vision-Language-Action 모델이 크게 향상될 수 있음이 입증되어, 보다 물리적으로 근거 있는 AI 발전의 길을 열었습니다.
에이전트형 멀티모달 모델은 텍스트와 이미지를 이해하는 데 그쳐서는 안 되며, 코드 실행 환경 및 웹 검색과 같은 외부 도구를 능동적으로 호출하고 이러한 작업을 추론 과정에 통합해야 합니다. 본 연구에서는 DeepEyesV2를 소개하고 데이터 구축, 훈련 방법, 모델 평가 관점에서 에이전트형 멀티모달 모델을 구축하는 방법을 탐구합니다. 우리는 단순한 직접 강화 학습만으로는 강건한 도구 사용 행동을 유도하지 못한다는 점을 관찰했습니다. 이러한 현상은 두 단계의 훈련 파이프라인, 즉 도구 사용 패턴을 확립하는 콜드스타트 단계와 도구 호출을 추가로 정제하는 강화 학습 단계로의 접근을 동기 부여합니다. 우리는 특히 도구 사용이 유리한 사례를 포함하도록 다양하고 적절한 수준의 도전적인 훈련 데이터 세트를 구성했습니다. 또한 실질적인 멀티모달 추론을 평가하기 위해 설계된 포괄적인 벤치마크인 RealX-Bench를 도입합니다. 이는 인식, 검색, 추론을 포함한 다중 능력 통합을 본질적으로 요구합니다. 우리는 DeepEyesV2를 RealX-Bench 및 다른 대표적인 벤치마크에서 평가하여 실제 세계 이해, 수학적 추론, 검색 집약적 작업 전반에 걸친 그 효과성을 입증합니다. 더 나아가 DeepEyesV2는 작업 적응형 도구 호출을 보여주며, 인식 작업에는 이미지 연산을, 추론 작업에는 수치 계산을 사용하는 경향이 있습니다. 강화 학습은 복잡한 도구 조합을 가능하게 하고 모델이 상황에 따라 선택적으로 도구를 호출할 수 있도록 합니다. 우리의 연구가 에이전트형 멀티모달 모델 개발을 위한 커뮤니티에 지침을 제공할 수 있기를 바랍니다.
LLM은 사고 연쇄(Chain-of-Thought, CoT)를 통해 다단계 추론을 수행할 수 있지만, 자신의 논리를 신뢰성 있게 검증하지는 못합니다. 올바른 답변에 도달하는 경우에도 근본적인 추론 과정에 결함이 있을 수 있어, 높은 위험을 수반하는 시나리오에서 신뢰성을 저해합니다. 이러한 문제를 완화하기 위해 본 연구에서는 CoT 추론에서 형식적 논리 논증을 추출하고 검증하는 신경-기호적(neuro-symbolic) 방법인 VeriCoT를 소개합니다. VeriCoT는 각 CoT 추론 단계를 1차 술어 논리로 형식화하고, 논증을 원천 문맥, 상식 지식 또는 선행 추론 단계에 기반하게 하는 전제를 식별합니다. 이 기호적 표현은 자동 솔버가 논리적 타당성을 검증할 수 있게 하며, 자연어 전제는 인간과 시스템이 근거가 부족하거나 오류가 있는 추론 단계를 식별할 수 있도록 합니다. ProofWriter, LegalBench, BioASQ 데이터셋에 대한 실험 결과, VeriCoT는 결함이 있는 추론을 효과적으로 식별하며 최종 답변의 정확성을 강력하게 예측하는 것으로 나타났습니다. 또한 VeriCoT의 검증 신호를 (1) 추론 시점 자기 성찰, (2) VeriCoT로 정제된 데이터셋에 대한 지도 미세 조정(SFT), (3) 검증 기반 쌍별 보상을 이용한 직접 선호 최적화(DPO)를 통한 선호 미세 조정(PFT)에 활용하여 추론의 타당성과 정확성을 추가로 개선했습니다.
실제 환경에서 에이전트는 논리적 판단뿐만 아니라 시의적절한 판단도 수행해야 합니다. 이는 변화하는 환경에 대한 지속적인 인식을 요구합니다: 위험 요소가 발생하고, 기회가 생기며, 다른 에이전트가 행동하는 동안에도 해당 에이전트의 추론 과정은 여전히 진행 중입니다. 언어 모델 추론 기술이 발전했음에도 불구하고, 기존 접근법은 이러한 역동적인 특성을 고려하지 못하고 있습니다. 본 연구는 변화하는 환경에서 작동하는 에이전트를 위한 새로운 문제 구성으로 실시간 추론(real-time reasoning)을 소개하고, 이를 입증하기 위해 Real-Time Reasoning Gym을 구축합니다. 우리는 에이전트에 언어 모델을 적용하는 두 가지 패러다임을 연구합니다: (1) 신속한 대응을 위해 제한된 추론 계산을 사용하는 언어 모델을 활용하는 반응형 에이전트(reactive agents)와 (2) 복잡한 문제에 대해 확장된 추론 계산을 허용하는 계획형 에이전트(planning agents). 실험 결과, 최첨단 모델들조차 두 패러다임 어느 쪽에서도 논리적이고 시의적절한 판단을 내리는 데 어려움을 겪는 것으로 나타났습니다. 이러한 한계를 해결하기 위해 우리는 두 가지 추론 패러다임을 동시에 활용하는 AgileThinker를 제안합니다. AgileThinker는 작업 난이도와 시간 압박이 증가함에 따라 단일 추론 패러다임만 사용하는 에이전트들을 꾸준히 능가하며, 추론 깊이와 응답 지연 시간을 효과적으로 균형 잡습니다. 우리의 연구는 실시간 추론을 실용적인 에이전트 개발을 위한 중요한 테스트베드로 확립하고, 시간 제약이 있는 AI 시스템 연구를 위한 기반을 마련함으로써 실시간 능력을 갖춘 에이전트로 나아가는 길을 제시합니다.
3D 인간 모션과 언어의 통합에 관한 최근 연구는 주로 텍스트-모션 생성에 집중되어 왔으며, 모션 이해 과제는 상대적으로 덜 탐구된 상태입니다. 본 연구에서는 3D 인간 모션 시퀀스 내에서 동작을 시간적으로 지역화하고 설명하는 새로운 과제인 Dense Motion Captioning을 소개합니다. 기존 데이터셋은 상세한 시간적 주석을 제공하지 않으며 대부분 소수의 동작만을 포함하는 짧은 시퀀스로 구성되어 있습니다. 이러한 한계를 극복하기 위해 우리는 정밀한 시간적 경계가 포함된 풍부한 주석이 달린 복잡한 모션 시퀀스로 구성된 최초의 대규모 데이터셋인 Complex Motion Dataset(CompMo)을 제안합니다. 신중하게 설계된 데이터 생성 파이프라인을 통해 구축된 CompMo는 최소 2개에서 최대 10개에 이르는 다중 동작으로 구성된 60,000개의 모션 시퀀스를 포함하며, 각 동작은 정확한 시간 범위 주석이 달려 있습니다. 또한 우리는 밀집된 시간 기반 캡션 생성을 위해 훈련된 대형 언어 모델과 단순한 모션 어댑터를 통합한 DEMO 모델을 제시합니다. 실험 결과, DEMO는 CompMo 및 적응된 벤치마크에서 기존 방법들을 크게 능가하며, 3D 모션 이해 및 캡션 생성 분야의 향후 연구를 위한 견고한 기준을 마련합니다.
본 연구에서는 시각적 임베딩을 단순히 입력 텍스트 시퀀스에 추가하는 일반적인 관행으로 인해 기존 LVLM 아키텍처가 언어 양상에 가지는 내재적 편향을 지적합니다. 이를 해결하기 위해 평균 풀링된 시각적 특징을 통합하여 텍스트 임베딩을 정제하는 간단하지만 효과적인 방법을 제안합니다. 우리의 접근 방식은 확립된 벤치마크에서 시각적 기반을 개선하고 환각 현상을 현저히 감소시키는 것으로 입증되었습니다. 평균 풀링이 시각 정보를 통합하는 직관적이고 강력하며 효율적인 수단을 제공하지만, 보다 정교한 융합 방법이 시각적 기반과 교차 양상 정렬을 추가로 향상시킬 수 있을 것으로 믿습니다. 본 연구의 주요 초점이 양상 불균형과 환각 현상에 미치는 영향을 부각시키고, 시각 정보를 활용한 텍스트 임베딩 정제가 이 문제를 완화한다는 점을 입증하는 데 있으므로, 고급 융합 전략에 대한 탐구는 향후 연구로 남깁니다.
대규모 언어 모델(LLM)의 정확한 신뢰도 캘리브레이션은 위험이 높은 분야에서의 안전한 사용에 매우 중요하며, 명확하게 언어화된 신뢰도는 사용자 신뢰를 향상시킵니다. 참조 신뢰도 표현을 모방하는 기존 방법론들은 정확한 신뢰도 평가에 필요한 추론 과정을 포착하는 데 종종 실패합니다. 본 연구는 자연어 비판을 해결책으로 제안합니다. 이는 정확한 금식(gold) 신뢰도 레이블을 얻기 어렵고 종종 여러 번의 생성이 필요하기 때문에 신뢰도 캘리브레이션에 특히 적합합니다. 본 논문은 자연어 비판이 언어화된 신뢰도를 어떻게 향상시킬 수 있는지 연구하며 다음 두 가지 핵심 질문을 다룹니다: (1) 무엇을 비판할 것인가: 불확실성(질문 중심) 또는 신뢰도(답변 특화)? 분석 결과, 신뢰도는 객관식 과제에, 불확실성은 개방형 시나리오에 더 적합한 것으로 나타났습니다. (2) 어떻게 비판할 것인가: 자기 비판(Self-Critique) 또는 비판 캘리브레이션 훈련(Critique Calibration Training)? 우리는 LLM이 단순한 정확도를 넘어 자신의 신뢰도를 비판하고 최적화할 수 있게 하는 Self-Critique와, 직접적인 수치 최적화를 넘어 자연어 비판을 활용하여 신뢰도 캘리브레이션을 개선하는 새로운 훈련 방법인 CritiCal을 제안합니다. 실험 결과, CritiCal은 Self-Critique 및 다른 경쟁력 있는 기준 모델들을 크게 능가하며, 복잡한 추론 과제에서 교사 모델인 GPT-4o의 성능을 넘어서는 것으로 나타났습니다. CritiCal은 분포 외 설정에서도 강력한 일반화 능력을 보여 LLM의 신뢰성 향상에 기여합니다.
최근 장문맥 언어 모델(LM)의 발전으로 100만 토큰 단위의 입력이 가능해지며 컴퓨터 사용 에이전트와 같은 복잡한 작업에서의 성능이 확장되고 있습니다. 그러나 이러한 확장된 맥락이 안전성에 미치는 영향은 여전히 불분명합니다. 이러한 간극을 메우기 위해 우리는 정렬된 LM을 우회 공격하는 방법인 NINJA(Needle-in-haystack jailbreak attack의 약어)를 소개합니다. 이는 유해한 사용자 목표에 모델이 생성한 무해한 콘텐츠를 추가하는 방식입니다. 우리 방법의 핵심은 유해한 목표의 위치가 안전성에 중요한 역할을 한다는 관찰에 기반합니다. 표준 안전성 벤치마크인 HarmBench에서의 실험 결과, NINJA가 LLaMA, Qwen, Mistral, Gemini를 포함한 최첨단 오픈 소스 및 독점 모델들에서 공격 성공률을 크게 높이는 것으로 나타났습니다. 기존 우회 공격 방법과 달리 우리의 접근법은 낮은 자원을 요구하며, 이전 가능하고 탐지되기 어렵습니다. 더 나아가 NINJA는 컴퓨팅 최적화된 방식입니다. 고정된 컴퓨팅 예산 하에서 맥락 길이를 증가시키는 것이 N-최선 우회 공격(best-of-N jailbreak)에서 시행 횟수를 증가시키는 것보다 더 나은 성능을 보였습니다. 이러한 결과는 신중한 목표 배치로 구성된 무해한 장문맥 조차도 현대 LM에 근본적인 취약점을 야기할 수 있음을 보여줍니다.
자동 프로그램 수리(APR) 분야는 최근 대규모 언어 모델과 에이전트 기반 시스템으로 전환되고 있지만, 대부분의 시스템은 저장소 기록을 간과한 채 로컬 스냅샷 컨텍스트에 의존하고 있습니다. 선행 연구에 따르면 버그가 발생한 라인을 마지막으로 수정한 커밋이 종종 버그를 유발한 커밋이기 때문에, 저장소 기록은 단일 라인 버그 수리에 도움이 됩니다. 본 논문에서는 저장소 기록이 특히 복잡한 다중 행 버그를 대상으로 규모 있는 에이전트 기반 APR 시스템의 성능도 향상시킬 수 있는지 조사합니다. 우리는 저장소 비난(blame) 정보에서 도출된 발견적 정보를 수리 루프에 주입하는 HAFixAgent(History-Aware Bug-Fixing Agent)를 제시합니다. Defects4J의 실제 버그 854개 전체를 대상으로 한 예비 연구는 버그와 관련된 기록이 광범위하게 존재하면서도 매우 집중되어 있음을 보여주어 우리의 설계에 동기를 부여했습니다. HAFixAgent와 두 가지 최신 기준선을 경험적으로 비교한 결과는 다음과 같습니다: (1) 효과성: HAFixAgent는 에이전트 기반 기준선 대비 212.3%, 다중 행 버그 처리 기준선 대비 29.9% 크게 향상되었습니다. (2) 효율성: 기록 활용은 에이전트 단계를 크게 증가시키지 않으며 토큰 비용을 비슷한 수준으로 유지했고, 특히 복잡한 다중 파일-다중 행 버그의 중간값 비용이 현저히 낮았습니다. (3) 실용성: 서로 다른 역사적 발견적 정보를 결합하면 더 많은 버그를 수리할 수 있어 명확한 비용-편익 균형을 제공합니다. HAFixAgent는 기록 인식 에이전트 기반 APR을 위한 실용적인 방법론을 제시합니다. 즉, 에이전트를 버전 관리 기록에 기반하게 하고, diff 기반 역사적 컨텍스트를 우선시하며, 필요 시 상호 보완적인 발견적 정보를 통합하는 것입니다.