번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 이해와 생성을 통합하는 것은 최첨단 독점 시스템에서 인상적인 능력을 보여주고 있습니다. 본 연구에서는 멀티모달 이해와 생성을 기본적으로 지원하는 오픈소스 기초 모델인 BAGEL을 소개합니다. BAGEL은 대규모로 인터리브된 텍스트, 이미지, 비디오, 웹 데이터에서 선별된 수조 개의 토큰으로 사전 학습된 통합 디코더 전용 모델입니다. 이러한 다양한 멀티모달 인터리브 데이터로 확장된 BAGEL은 복잡한 멀티모달 추론에서 새로운 능력을 보여줍니다. 그 결과, BAGEL은 표준 벤치마크에서 멀티모달 생성과 이해 모두에서 오픈소스 통합 모델을 크게 능가하며, 자유형 이미지 조작, 미래 프레임 예측, 3D 조작, 세계 탐색과 같은 고급 멀티모달 추론 능력을 보여줍니다. 멀티모달 연구의 추가 기회를 촉진하기 위해, 주요 발견, 사전 학습 세부 사항, 데이터 생성 프로토콜을 공유하고 코드와 체크포인트를 커뮤니티에 공개합니다. 프로젝트 페이지는 https://bagel-ai.org/에서 확인할 수 있습니다.
주의력의 효율성은 그 이차 시간 복잡도로 인해 중요합니다. 우리는 두 가지 주요 기여를 통해 주의력의 효율성을 향상시켰습니다: 첫째, Blackwell GPU의 새로운 FP4 Tensor Core를 활용하여 주의력 계산을 가속화했습니다. 우리의 구현은 RTX5090에서 1038 TOPS를 달성하며, 이는 RTX5090에서 가장 빠른 FlashAttention 대비 5배의 속도 향상을 보여줍니다. 실험 결과, 우리의 FP4 주의력은 다양한 모델의 추론을 플러그 앤 플레이 방식으로 가속화할 수 있음을 보여줍니다. 둘째, 우리는 저비트 주의력을 훈련 작업에 처음으로 적용했습니다. FlashAttention3 및 SageAttention과 같은 기존의 저비트 주의력 연구는 추론에만 초점을 맞추고 있습니다. 그러나 대규모 모델 훈련의 효율성 또한 중요합니다. 저비트 주의력이 훈련 작업에 효과적으로 적용될 수 있는지 탐구하기 위해, 우리는 정확하고 효율적인 8비트 주의력을 순전파 및 역전파 모두에 대해 설계했습니다. 실험 결과, 8비트 주의력은 미세 조정 작업에서는 손실 없는 성능을 달성하지만, 사전 훈련 작업에서는 더 느린 수렴을 보여줍니다. 코드는 https://github.com/thu-ml/SageAttention에서 제공될 예정입니다.
보상 모델은 대규모 언어 모델이 인간의 기대에 부합하는 출력을 생성하도록 유도하는 데 중요한 역할을 합니다. 그러나 테스트 시점의 컴퓨팅 자원을 효과적으로 활용하여 보상 모델의 성능을 향상시키는 것은 여전히 해결해야 할 과제로 남아 있습니다. 본 연구에서는 최종 보상을 생성하기 전에 신중한 추론 과정을 수행하도록 특별히 설계된 Reward Reasoning Models (RRMs)를 소개합니다. RRMs는 사고의 연쇄(chain-of-thought) 추론을 통해 적절한 보상이 즉시 명확하지 않은 복잡한 질문에 대해 추가적인 테스트 시점 컴퓨팅 자원을 활용합니다. RRMs를 개발하기 위해, 우리는 명시적인 추론 흔적을 훈련 데이터로 요구하지 않으면서도 스스로 진화하는 보상 추론 능력을 키우는 강화 학습 프레임워크를 구현했습니다. 실험 결과는 RRMs가 다양한 도메인에서 보상 모델링 벤치마크에서 우수한 성능을 달성함을 보여줍니다. 특히, RRMs가 테스트 시점의 컴퓨팅 자원을 적응적으로 활용하여 보상 정확도를 더욱 개선할 수 있음을 입증했습니다. 사전 훈련된 보상 추론 모델은 https://huggingface.co/Reward-Reasoning에서 확인할 수 있습니다.
테스트 시간 계산 능력을 확장하는 것은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 중요합니다. 기존의 접근 방식은 일반적으로 강화 학습(RL)을 활용하여 추론 과정의 끝에서 얻을 수 있는 검증 가능한 보상을 극대화합니다. 그러나 이러한 방법은 고정된 큰 토큰 예산 하에서 최종 성능만을 최적화하므로, 학습 및 배포 과정에서 효율성이 저해됩니다. 본 연구에서는 다양한 토큰 예산 제약 하에서 토큰 효율성과 추론의 유연성을 개선하기 위해, AnytimeReasoner라는 새로운 프레임워크를 제안합니다. 이를 위해, 우리는 사전 분포에서 샘플링된 토큰 예산에 맞추어 전체 사고 과정을 단축하고, 모델이 각 단축된 사고에 대해 최적의 답을 요약하여 검증하도록 강제합니다. 이는 추론 과정에 검증 가능한 밀집 보상을 도입함으로써 RL 최적화에서 더 효과적인 신용 할당을 가능하게 합니다. 이후, 우리는 누적 보상을 극대화하기 위해 사고 정책과 요약 정책을 분리하여 최적화합니다. 또한, 사고 정책을 강화할 때 학습 과정의 견고성과 효율성을 높이기 위해 Budget Relative Policy Optimization(BRPO)이라는 새로운 분산 감소 기법을 도입합니다. 수학적 추론 과제에서의 실험 결과는 우리의 방법이 다양한 사전 분포 하에서 모든 사고 예산에 걸쳐 GRPO를 일관되게 능가하며, 학습 및 토큰 효율성을 모두 향상시킴을 보여줍니다.
신경기호(Neurosymbolic, NeSy) 예측 모델은 시각적 추론과 같은 작업을 해결하기 위해 신경망 기반의 인식과 기호적 추론을 결합합니다. 그러나 표준 NeSy 예측 모델은 추출한 기호들 간의 조건부 독립성을 가정함으로써, 상호작용과 불확실성을 모델링하는 능력이 제한되어 과도하게 확신적인 예측과 분포 외 일반화 성능 저하를 초래하는 경우가 많습니다. 이러한 독립성 가정의 한계를 극복하기 위해, 우리는 이산 확산(discrete diffusion)을 사용하여 기호 간의 의존성을 모델링하는 새로운 클래스의 NeSy 예측 모델인 신경기호 확산 모델(NeSyDMs)을 제안합니다. 우리의 접근 방식은 확산 과정의 각 단계에서 NeSy 예측 모델의 독립성 가정을 재사용함으로써, 기호 간의 의존성과 불확실성 정량화를 포착하면서도 확장 가능한 학습을 가능하게 합니다. 고차원 시각적 경로 계획 및 규칙 기반 자율 주행을 포함한 합성 및 실세계 벤치마크에서 NeSyDMs는 NeSy 예측 모델 중 최첨단 정확도를 달성하며 강력한 보정 성능을 보여줍니다.
대형 추론 모델(예: OpenAI의 o3)의 주요 트렌드 중 하나는 웹 브라우저와 같은 외부 도구를 사용하여 검색을 수행하고, 이미지 조작을 위한 코드를 작성 및 실행하며, 이미지를 통해 사고하는 네이티브 에이전트 능력입니다. 오픈소스 연구 커뮤니티에서는 함수 호출 및 도구 통합과 같은 언어 전용 에이전트 능력에서 상당한 진전이 있었지만, 이미지를 통해 진정으로 사고하는 다중 모달 에이전트 능력과 이에 상응하는 벤치마크 개발은 아직 덜 탐구된 상태입니다. 본 연구는 대형 시각-언어 모델(LVLMs)을 위한 유연하고 적응적인 추론 능력을 가능하게 하는 시각적 에이전트 강화 미세 조정(Visual-ARFT)의 효과를 강조합니다. Visual-ARFT를 통해 오픈소스 LVLMs는 실시간 정보 업데이트를 위해 웹사이트를 탐색하고, 입력 이미지를 자르기, 회전 및 기타 이미지 처리 기술을 통해 조작 및 분석하는 코드를 작성할 수 있는 능력을 얻습니다. 또한, LVLMs의 에이전트 검색 및 코딩 능력을 평가하기 위해 두 가지 설정(MAT-Search 및 MAT-Coding)으로 구성된 다중 모달 에이전트 도구 벤치(MAT)를 제시합니다. 실험 결과에 따르면, Visual-ARFT는 MAT-Coding에서 기준선 대비 +18.6% F1 / +13.0% EM, MAT-Search에서 +10.3% F1 / +8.7% EM으로 우수한 성능을 보이며, 궁극적으로 GPT-4o를 능가합니다. Visual-ARFT는 또한 2Wiki 및 HotpotQA와 같은 기존의 다중 홉 QA 벤치마크에서 +29.3% F1 / +25.9% EM의 성능 향상을 달성하여 강력한 일반화 능력을 입증합니다. 우리의 연구 결과는 Visual-ARFT가 견고하고 일반화 가능한 다중 모달 에이전트를 구축하기 위한 유망한 경로를 제공함을 시사합니다.
DeepSeek-R1은 강화 학습을 통해 대규모 언어 모델(LLMs)의 추론 및 일반화 능력을 유도하는 데 있어 뛰어난 효과를 입증했습니다. 그러나 시각적 추론에 크게 의존하는 작업인 이미지 품질 평가(IQA)의 맥락에서 추론 유도형 계산 모델링의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VisualQuality-R1이라는 추론 유도형 무참조 IQA(NR-IQA) 모델을 소개하고, 시각적 품질의 본질적으로 상대적인 특성에 맞춰 설계된 강화 학습 기반 순위 학습 알고리즘을 통해 이를 학습시킵니다. 구체적으로, 한 쌍의 이미지에 대해 그룹 상대 정책 최적화를 사용하여 각 이미지에 대한 다중 품질 점수를 생성합니다. 이 추정값들은 Thurstone 모델 하에서 한 이미지가 다른 이미지보다 더 높은 품질을 가질 확률을 계산하는 데 사용됩니다. 각 품질 추정에 대한 보상은 이산화된 이진 레이블이 아닌 연속적인 충실도 측정을 통해 정의됩니다. 광범위한 실험을 통해 제안된 VisualQuality-R1이 판별적 딥러닝 기반 NR-IQA 모델과 최근의 추론 유도형 품질 회귀 방법을 지속적으로 능가함을 보여줍니다. 또한, VisualQuality-R1은 맥락적으로 풍부하고 인간과 일치하는 품질 설명을 생성할 수 있으며, 지각적 스케일 재조정 없이도 다중 데이터셋 학습을 지원합니다. 이러한 특징들로 인해 VisualQuality-R1은 초해상도 및 이미지 생성과 같은 다양한 이미지 처리 작업에서의 진전을 신뢰성 있게 측정하는 데 특히 적합합니다.
대규모 언어 모델(LLMs)의 표준 구현체인 트랜스포머(Transformers)는 일반적으로 수십에서 수백 개의 개별 레이어로 구성됩니다. 더 많은 레이어는 더 나은 성능으로 이어질 수 있지만, 이러한 접근 방식은 확산(diffusion) 및 흐름 기반(flow-based) 모델이 이미지 생성에서 보여준 연속 레이어의 우수성에 비해 효율적이지 않다는 점에서 도전받아 왔습니다. 우리는 Latent Flow Transformer(LFT)를 제안하며, 이는 블록의 여러 레이어를 흐름 매칭(flow matching)을 통해 학습된 단일 전송 연산자로 대체하여 원래 아키텍처와의 호환성을 유지하면서도 상당한 압축을 제공합니다. 또한, 기존 흐름 기반 방법들이 결합(coupling)을 유지하는 데 있어 한계를 극복하기 위해 Flow Walking(FW) 알고리즘을 도입합니다. Pythia-410M 모델에서, 흐름 매칭으로 학습된 LFT는 24개 레이어 중 6개를 압축하며, 2개 레이어를 직접 건너뛰는 것보다 더 나은 성능을 보여줍니다(LM 로짓의 KL 발산이 0.407 대 0.529). 이는 이러한 설계의 실현 가능성을 입증합니다. FW로 학습된 경우, LFT는 12개 레이어를 하나로 더욱 압축하면서 KL을 0.736로 줄이며, 이는 3개 레이어를 건너뛰는 경우(0.932)를 능가합니다. 이는 자기회귀(autoregressive)와 흐름 기반 생성 패러다임 간의 격차를 크게 좁히는 결과입니다.
목적: 의료 분야에서 대형 언어 모델(LLMs)의 발전과 함께, 공공의 이익을 보호하기 위해 경쟁력 있는 오픈소스 모델의 필요성이 대두되고 있다. 본 연구는 데이터 전처리와 훈련의 주요 단계를 최적화하고, 모델의 안전성(DPO를 통해)과 효율성(RAG를 통해)을 개선하는 방법을 보여줌으로써 오픈 의료 LLMs 분야에 기여한다. 네 가지 유형의 테스트를 포함한 평가 방법론은 이 분야의 새로운 표준을 정의한다. 최고의 사설 대안 모델들과 경쟁력 있는 성능을 보여준 결과 모델들은 허가적 라이선스로 공개된다. 방법: Llama 3.1 및 Qwen 2.5와 같은 강력한 기본 모델을 기반으로, Aloe Beta는 공공 데이터를 합성 Chain of Thought 예제로 강화한 맞춤형 데이터셋을 사용한다. 모델들은 Direct Preference Optimization을 통해 정렬되며, 특히 탈옥 공격 상황에서 윤리적이고 정책에 부합하는 성능을 강조한다. 평가는 폐쇄형, 개방형, 안전성 및 인간 평가를 포함하여 결과의 신뢰성을 극대화한다. 결과: Aloe Family의 견고한 성능을 바탕으로 전체 파이프라인에 걸쳐 권장 사항이 제시된다. 이 모델들은 의료 벤치마크 및 의학 분야에서 경쟁력 있는 성능을 제공하며, 종종 의료 전문가들에게 선호된다. 편향성과 유해성 측면에서 Aloe Beta 모델들은 안전성을 크게 개선하며, 보이지 않는 탈옥 공격에 대한 탄력성을 보여준다. 책임 있는 공개를 위해 Aloe Family 모델에는 의료 분야에 특화된 상세한 위험 평가가 첨부된다. 결론: Aloe Beta 모델들과 이를 이끌어낸 방법론은 오픈소스 의료 LLMs 분야에 중요한 기여를 하며, 최고 수준의 성능을 유지하면서도 높은 윤리적 요구 사항을 충족한다. 본 연구는 의료 분야에서 정렬된 LLMs를 개발하고 보고하는 새로운 표준을 제시한다.
강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 있어 강력한 잠재력을 보여주고 있다. 특히, Deepseek-R1-Zero가 도입한 "Zero" 강화 학습은 중간 단계의 지도 미세 조정 단계에 의존하지 않고 기본 LLMs를 직접 RL로 훈련할 수 있게 한다. 이러한 발전에도 불구하고, 현재 LLM 추론 연구는 주로 수학 및 코딩 영역에 집중되어 있으며, 이는 데이터의 풍부함과 답변 검증의 용이성 때문이다. 이는 다양한 답변 표현을 가지며 데이터가 더 희소한 광범위한 영역에서의 모델 적용성과 일반화를 제한한다. 본 논문에서는 다양한 영역에서 LLM의 추론 능력을 향상시키기 위해 설계된 새로운 훈련 패러다임인 General-Reasoner를 제안한다. 우리의 주요 기여는 다음과 같다: (1) 웹 크롤링을 통해 검증 가능한 답변과 함께 다양한 학문 분야를 포괄하는 대규모 고품질 질문 데이터셋을 구축하는 것; (2) 전통적인 규칙 기반 검증을 사고의 연쇄(chain-of-thought)와 문맥 인식 능력으로 대체하는 생성 모델 기반 답변 검증기를 개발하는 것. 우리는 일련의 모델을 훈련시키고 물리학, 화학, 금융, 전자공학 등 다양한 영역을 포괄하는 데이터셋에서 평가한다. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH, MATH AMC 등 12개의 벤치마크에 걸친 포괄적인 평가를 통해 General-Reasoner가 기존의 기준 방법들을 능가하며, 수학적 추론 작업에서도 우수한 효과를 유지하면서 견고하고 일반화 가능한 추론 성능을 달성함을 입증한다.
최근 대형 추론 모델(LRMs)은 최종 응답을 생성하기 전에 확장된 사고 과정을 통합함으로써 기존의 대형 언어 모델(LLMs)에 비해 상당히 향상된 추론 능력을 보여주었습니다. 그러나 지나치게 긴 사고 과정은 토큰 소비와 지연 시간 측면에서 상당한 오버헤드를 초래하며, 이는 특히 간단한 질문에는 불필요한 요소입니다. 본 연구에서는 사용자 질문의 문맥 정보를 기반으로 사고를 수행할지 여부를 적응적으로 결정할 수 있는 최초의 모델인 대형 하이브리드 추론 모델(LHRMs)을 소개합니다. 이를 위해 하이브리드 미세 조정(HFT)을 콜드 스타트로 포함한 두 단계의 학습 파이프라인을 제안하고, 제안된 하이브리드 그룹 정책 최적화(HGPO)를 통한 온라인 강화 학습을 통해 적절한 사고 모드를 선택하는 방법을 암묵적으로 학습합니다. 또한, 모델의 하이브리드 사고 능력을 정량적으로 평가하기 위해 하이브리드 정확도라는 메트릭을 도입합니다. 광범위한 실험 결과는 LHRMs가 다양한 난이도와 유형의 질문에 대해 적응적으로 하이브리드 사고를 수행할 수 있음을 보여줍니다. 이는 기존의 LRMs와 LLMs를 추론 및 일반 능력 측면에서 능가하면서도 효율성을 크게 개선합니다. 본 연구는 확장된 사고 과정의 적절한 사용에 대한 재고를 촉구하며, 하이브리드 사고 시스템 구축을 위한 견고한 출발점을 제공합니다.
강력한 성능에도 불구하고, 대형 언어 모델(LLM)은 종종 자신의 확신을 정확히 전달하지 못해, 언제 잘못될 수 있는지 판단하기 어렵고 신뢰성을 제한합니다. 본 연구에서는 확장된 사고 연쇄(CoT) 추론을 수행하는 추론 모델이 문제 해결뿐만 아니라 자신의 확신을 정확히 표현하는 데서도 우수한 성능을 보인다는 것을 입증합니다. 구체적으로, 6개의 데이터셋에서 6개의 추론 모델을 벤치마킹한 결과, 36개 설정 중 33개에서 비추론 모델 대비 엄격히 더 나은 신뢰도 보정을 달성했습니다. 상세 분석 결과, 이러한 보정 개선은 추론 모델의 '느린 사고' 행동(예: 대안 접근법 탐색 및 역추적)에서 비롯되며, 이는 CoT 과정에서 자신의 확신을 동적으로 조정하여 점점 더 정확하게 만드는 것으로 나타났습니다. 특히, 추론 모델은 CoT가 전개될수록 점점 더 잘 보정되는 반면, 비추론 모델에서는 이러한 경향이 관찰되지 않았습니다. 또한, CoT에서 느린 사고 행동을 제거하면 보정이 크게 저하됩니다. 마지막으로, 이러한 이점이 추론 모델에만 국한되지 않음을 보여주며, 비추론 모델도 문맥 학습을 통해 느린 사고를 수행하도록 유도할 때 이익을 얻는 것을 확인했습니다.
최근 추론 중심 언어 모델들은 최종 답변을 생성하기 전에 긴 중간 추론 경로를 생성함으로써 높은 정확도를 달성하고 있습니다. 이러한 접근 방식은 논리적 사고가 필요한 문제를 해결하는 데 효과적이지만, 긴 추론 경로는 메모리 사용량과 토큰 생성 처리량을 크게 증가시켜, 이러한 모델의 실제 배포를 제한합니다. 우리는 추론 경로의 의미적 희소성을 활용하여 추론 속도를 높이는 학습이 필요 없는 방법인 Reasoning Path Compression (RPC)을 제안합니다. RPC는 최근 생성된 쿼리로 구성된 선택기 창을 사용하여 계산된 높은 중요도 점수를 받은 KV 캐시를 유지함으로써 주기적으로 KV 캐시를 압축합니다. 실험 결과, RPC는 전체 KV 캐시를 사용한 추론에 비해 QwQ-32B의 생성 처리량을 최대 1.60배 향상시키며, AIME 2024 벤치마크에서 1.2%의 정확도 하락을 보였습니다. 우리의 연구 결과는 추론 흔적에서의 의미적 희소성이 압축에 효과적으로 활용될 수 있음을 보여주며, 추론 중심 대형 언어 모델의 효율적인 배포를 위한 실용적인 방안을 제시합니다. 우리의 코드는 https://github.com/jiwonsong-dev/ReasoningPathCompression에서 확인할 수 있습니다.
범용 추론 능력을 학습하는 것은 오랫동안 AI 분야에서 어려운 문제로 여겨져 왔습니다. 최근 DeepSeek-R1과 같은 대규모 언어 모델(LLM) 연구에서 GRPO와 같은 강화 학습 기법을 통해 사전 학습된 LLM이 간단한 질문-답변 쌍을 사용하여 추론 능력을 개발할 수 있음이 입증되었습니다. 본 논문에서는 명시적인 사고 연쇄(CoT) 지도 없이 강화 학습과 시각적 질문-답변 쌍을 통해 시각 언어 모델(VLM)이 이미지 데이터에 대한 추론을 수행하도록 학습시키는 것을 목표로 합니다. 우리의 연구 결과에 따르면, VLM에 강화 학습을 단순히 적용하는 것만으로는 -- 모델이 답변을 제공하기 전에 추론 연쇄를 생성하도록 유도하는 방식 -- 모델이 쉬운 질문에서 단축 경로를 개발하게 되어, 보이지 않는 데이터 분포에 대한 일반화 능력이 감소할 수 있음을 보여줍니다. 우리는 단축 학습을 완화하는 핵심이 모델이 추론하기 전에 이미지를 해석하도록 유도하는 것이라고 주장합니다. 따라서 우리는 모델이 캡션-추론-답변 출력 형식을 따르도록 학습시킵니다: 먼저 이미지에 대한 상세한 캡션을 생성한 다음, 광범위한 추론 연쇄를 구성합니다. 273K개의 CoT가 없는 시각적 질문-답변 쌍에 대해 강화 학습만을 사용하여 학습한 우리의 모델, Visionary-R1은 GPT-4o, Claude3.5-Sonnet, Gemini-1.5-Pro와 같은 강력한 다중 모달 모델을 여러 시각적 추론 벤치마크에서 능가하는 성능을 보여줍니다.
지능형 게임 제작은 생성형 인공지능을 활용하여 게임 콘텐츠를 동적으로 생성하고 향상시키는 게임 개발 분야의 혁신적인 진보를 대표한다. 생성 모델에서의 상당한 발전에도 불구하고, 이미지와 비디오를 포함한 고품질 게임 자산의 포괄적인 합성은 여전히 도전적인 과제로 남아 있다. 플레이어 선호도와 일치하면서도 디자이너의 효율성을 크게 향상시키는 고품질 게임 콘텐츠를 생성하기 위해, 우리는 지능형 게임 제작을 혁신적으로 변화시킬 혁신적인 프로젝트인 훈위안-게임(Hunyuan-Game)을 제안한다. 훈위안-게임은 이미지 생성과 비디오 생성이라는 두 가지 주요 분야로 구성된다. 이미지 생성 구성 요소는 수십억 개의 게임 이미지로 구성된 방대한 데이터셋을 기반으로 하며, 게임 시나리오에 맞춤화된 이미지 생성 모델 그룹을 개발하였다: (1) 일반 텍스트-이미지 생성. (2) 텍스트-효과 및 참조 이미지 기반 게임 시각 효과 생성. (3) 캐릭터, 배경, 게임 시각 효과를 위한 투명 이미지 생성. (4) 스케치, 흑백 이미지, 화이트 모델 기반 게임 캐릭터 생성. 비디오 생성 구성 요소는 수백만 개의 게임 및 애니메이션 비디오로 구성된 포괄적인 데이터셋을 기반으로 하며, 게임 개발의 주요 문제점을 해결하고 다양한 게임 비디오 시나리오에 강력한 적응력을 갖춘 다섯 가지 핵심 알고리즘 모델을 개발하였다: (1) 이미지-비디오 생성. (2) 360 A/T 포즈 아바타 비디오 합성. (3) 동적 일러스트레이션 생성. (4) 생성형 비디오 초해상도. (5) 인터랙티브 게임 비디오 생성. 이러한 이미지 및 비디오 생성 모델은 높은 수준의 미적 표현을 보여줄 뿐만 아니라 도메인 특화 지식을 깊이 통합하여 다양한 게임 및 애니메이션 예술 스타일에 대한 체계적인 이해를 구축한다.
대규모 멀티모달 모델(LMMs)은 최근 장기 비디오 이해(LVU)를 위한 강력한 도구로 부상하며, 이들의 성능을 평가하기 위한 표준화된 LVU 벤치마크의 개발을 촉진하고 있다. 그러나 우리의 조사는 기존 LVU 벤치마크에 대해 상당히 냉정한 교훈을 제공한다. 첫째, 대부분의 기존 벤치마크는 객관식 질문(MCQs)에 크게 의존하고 있으며, 이는 정답을 추측할 가능성으로 인해 평가 결과가 과대평가된다. 둘째, 이러한 벤치마크의 상당 부분의 질문은 모델이 입력 비디오를 읽지 않고도 직접 답할 수 있는 강력한 사전 정보를 포함하고 있다. 예를 들어, Gemini-1.5-Pro는 Video-MME에서 장기 비디오의 무작위 프레임만 주어져도 50% 이상의 정확도를 달성할 수 있다. 또한, 프레임 수를 증가시키는 것이 기존 벤치마크에서 반드시 성능 향상으로 이어지지 않는다는 점도 관찰되었는데, 이는 직관에 반하는 결과이다. 결과적으로, 현재 LVU 벤치마크의 타당성과 견고성이 훼손되어 LMMs의 장기 비디오 이해 능력을 충실히 평가하는 데 방해가 되고 있다. 이 문제를 해결하기 위해, 우리는 전체 비디오를 이해해야만 답할 수 있는 개방형 단답형 질문을 포함한 현실적인 LVU 벤치마크인 VideoEval-Pro를 제안한다. VideoEval-Pro는 지각과 추론 과제를 통해 세그먼트 수준과 전체 비디오 이해를 모두 평가한다. 21개의 독점 및 오픈소스 비디오 LMMs를 평가한 결과, 다음과 같은 결론을 도출했다: (1) 비디오 LMMs는 객관식 질문에 비해 개방형 질문에서 급격한 성능 하락(>25%)을 보인다; (2) 놀랍게도, 객관식 점수가 높다고 해서 VideoEval-Pro에서 개방형 점수가 높아지지는 않는다; (3) 다른 객관식 벤치마크와 비교했을 때, VideoEval-Pro는 입력 프레임 수를 증가시키는 것에서 더 큰 이점을 얻는다. 우리의 결과는 VideoEval-Pro가 장기 비디오 이해를 더 현실적이고 신뢰할 수 있게 측정하며, 이 분야의 진전을 더 명확히 보여준다는 것을 보여준다.
코드 스위칭(CS)은 대형 언어 모델(LLMs)에게 상당한 도전 과제로 작용하지만, LLMs에서의 이해 가능성은 아직 충분히 탐구되지 않았다. 본 연구에서는 CS 대화를 영어 요약으로 변환함으로써 LLMs의 CS 이해 능력을 평가하기 위해 CS-Sum을 소개한다. CS-Sum은 만다린-영어(EN-ZH), 타밀어-영어(EN-TA), 말레이어-영어(EN-MS)에 걸친 CS 대화 요약을 위한 최초의 벤치마크로, 각 언어 쌍당 900-1300개의 인간 주석이 달린 대화를 포함한다. 오픈 소스 및 클로즈드 소스 모델을 포함한 10개의 LLMs를 평가하며, 퓨샷, 번역-요약, 미세 조정(합성 데이터에 대한 LoRA, QLoRA) 접근법을 통해 성능을 분석한다. 연구 결과, 자동화된 지표에서의 점수는 높지만, LLMs가 대화의 전체 의미를 바꾸는 미묘한 실수를 저지르는 것으로 나타났다. 이를 위해, LLMs가 CS 입력을 처리할 때 발생하는 3가지 가장 일반적인 오류 유형을 소개한다. 오류율은 CS 쌍과 LLMs에 따라 다양하며, 일부 LLMs는 특정 언어 쌍에서 더 빈번한 오류를 보여, 코드 스위칭 데이터에 대한 특화된 훈련의 필요성을 강조한다.
LLM 프루닝은 리소스가 제한된 장치에서의 배포를 가능하게 하는, LLM을 압축하기 위한 유망한 기술로 부상했습니다. 그러나 현재의 방법론들은 일반적으로 공개 보정 샘플에 대한 접근을 필요로 하는데, 이는 프라이버시가 중요한 도메인에서는 획득하기 어려울 수 있습니다. 이 문제를 해결하기 위해, 우리는 LLM의 프라이버시 보존 압축을 위해 설계된 포괄적인 연합 프루닝 프레임워크인 FedPrLLM을 소개합니다. FedPrLLM에서 각 클라이언트는 로컬 보정 데이터를 기반으로 프루닝 마스크 행렬을 계산하고 이를 서버와 공유하여 전역 모델을 프루닝합니다. 이 접근 방식은 각 클라이언트의 지식을 활용하여 전역 모델을 협업적으로 프루닝하면서도 로컬 데이터의 프라이버시를 유지할 수 있게 합니다. 또한, 우리는 FedPrLLM 프레임워크 내에서 다양한 가능성을 탐구하기 위해 광범위한 실험을 수행했습니다. 여기에는 다른 비교 그룹, 프루닝 전략, 그리고 가중치 스케일링 여부 결정 등이 포함됩니다. 우리의 광범위한 평가 결과, 레이어 비교와 가중치 스케일링 없이 한 번에 프루닝을 수행하는 것이 FedPrLLM 프레임워크 내에서 최적의 선택임을 밝혔습니다. 우리의 연구가 프라이버시가 중요한 분야에서의 LLM 프루닝에 대한 미래의 노력을 안내하는 데 도움이 되기를 바랍니다. 우리의 코드는 https://github.com/Pengxin-Guo/FedPrLLM에서 확인할 수 있습니다.
보이지 않는 이미지 워터마킹은 이미지 소유권을 보호하고 시각적 생성 모델의 악의적인 오용을 방지할 수 있습니다. 그러나 기존의 생성적 워터마킹 방법은 주로 확산 모델을 위해 설계되었으며, 자기회귀적 이미지 생성 모델을 위한 워터마킹은 여전히 크게 탐구되지 않은 상태입니다. 우리는 자기회귀적 이미지 생성 모델을 위한 학습이 필요 없는 워터마킹 프레임워크인 IndexMark를 제안합니다. IndexMark는 코드북의 중복성 특성에서 영감을 받았습니다: 자기회귀적으로 생성된 인덱스를 유사한 인덱스로 대체해도 시각적 차이는 미미합니다. IndexMark의 핵심 구성 요소는 간단하면서도 효과적인 매치-후-대체 방법으로, 토큰 유사성을 기반으로 코드북에서 워터마크 토큰을 신중하게 선택하고 토큰 대체를 통해 워터마크 토큰의 사용을 촉진함으로써 이미지 품질에 영향을 주지 않고 워터마크를 삽입합니다. 워터마크 검증은 생성된 이미지에서 워터마크 토큰의 비율을 계산하여 이루어지며, Index Encoder를 통해 정확도가 더욱 향상됩니다. 또한, 크롭핑 공격에 대한 견고성을 강화하기 위해 보조 검증 방식을 도입했습니다. 실험 결과, IndexMark는 이미지 품질과 검증 정확도 측면에서 최첨단 성능을 달성했으며, 크롭핑, 노이즈, 가우시안 블러, 랜덤 지우기, 색상 변화, JPEG 압축 등 다양한 변형에 대해 견고성을 보여주었습니다.
널리 채택되고 있음에도 불구하고, 다중 모드 대형 언어 모델(MLLMs)은 분포 변화 상황에서 익숙하지 않은 질의를 접할 때 성능 저하를 겪습니다. MLLM의 일반화를 개선하기 위한 기존 방법들은 일반적으로 더 많은 지시 데이터나 더 크고 발전된 모델 아키텍처를 요구하며, 이 둘 모두 상당한 인적 노동력이나 계산 비용을 초래합니다. 본 연구에서는 표현 학습 관점에서 분포 변화 하에서 MLLM의 견고성을 강화하는 대안적 접근법을 취합니다. 정보 병목(IB) 원리에 영감을 받아, MLLM을 위한 IB의 변분 하한을 도출하고 이를 실용적으로 구현한 Visual Instruction Bottleneck Tuning(Vittle)을 고안했습니다. 그런 다음, Vittle과 MLLM의 정보 이론적 견고성 지표 간의 연결을 밝힘으로써 Vittle의 이론적 타당성을 제공합니다. 45개 데이터셋(30개의 변화 시나리오 포함)에 대한 개방형 및 폐쇄형 질문 응답 및 객체 환각 탐지 작업에서 세 가지 MLLM을 실험적으로 검증한 결과, Vittle이 최소 충분 표현 학습을 추구함으로써 변화 하에서 MLLM의 견고성을 지속적으로 개선함을 입증했습니다.
대규모 언어 모델의 크기가 기하급수적으로 증가함에 따라 GPU 메모리는 이러한 모델을 다운스트림 작업에 적용하는 데 있어 병목 현상이 되었습니다. 본 논문에서는 모델 가중치, 그래디언트, 옵티마이저 상태에 대한 메모리 사용을 최소화하여 메모리 효율적인 훈련의 한계를 극복하고자 합니다. 우리의 아이디어는 제로차 최적화를 통해 그래디언트와 옵티마이저 상태를 모두 제거하는 것인데, 이는 순전파 과정에서 가중치를 섭동시켜 그래디언트 방향을 파악함으로써 그래디언트를 근사하는 방법입니다. 가중치에 대한 메모리 사용을 최소화하기 위해 모델 양자화를 사용하며, 예를 들어 bfloat16에서 int4로 변환합니다. 그러나 양자화된 가중치에 제로차 최적화를 직접 적용하는 것은 이산화된 가중치와 연속적인 그래디언트 간의 정밀도 차이로 인해 불가능하며, 이는 디양자화와 재양자화를 필요로 합니다. 이러한 문제를 극복하기 위해, 우리는 연속적인 양자화 스케일을 섭동시켜 그래디언트를 추정하고 훈련을 안정화하기 위한 방향성 도함수 클리핑 방법을 사용하는 양자화된 제로차 최적화(Quantized Zeroth-order Optimization, QZO)라는 새로운 접근 방식을 제안합니다. QZO는 스칼라 기반 및 코드북 기반의 사후 훈련 양자화 방법과 모두 직교합니다. bfloat16에서의 전체 파라미터 미세 조정과 비교했을 때, QZO는 4비트 LLM의 총 메모리 비용을 18배 이상 줄일 수 있으며, 단일 24GB GPU 내에서 Llama-2-13B와 Stable Diffusion 3.5 Large의 미세 조정을 가능하게 합니다.
다양한 모달리티 작업을 위한 시각-언어 모델(VLMs)의 인상적인 발전에도 불구하고, 이들이 RGB 입력에 의존하는 것은 정확한 공간 이해를 제한한다. 포인트 클라우드나 깊이와 같은 공간 단서를 통합하기 위한 기존 방법들은 특수 센서가 필요하거나 고차원적 추론을 위해 깊이 정보를 효과적으로 활용하지 못한다. 이를 위해, 우리는 원시 깊이 데이터를 구조화되고 해석 가능한 텍스트적 근거로 변환하는 새로운 공간 감각 및 추론 방법인 SSR(Spatial Sense and Reasoning)을 제안한다. 이러한 텍스트적 근거는 의미 있는 중간 표현으로 작용하여 공간 추론 능력을 크게 향상시킨다. 또한, 우리는 생성된 근거를 컴팩트한 잠재 임베딩으로 압축하기 위해 지식 증류를 활용하여, 재훈련 없이 기존 VLMs에 자원 효율적이고 플러그 앤 플레이 방식으로 통합할 수 있도록 한다. 포괄적인 평가를 위해, 우리는 중간 공간 추론 주석이 풍부한 백만 규모의 시각-언어 추론 데이터셋인 SSR-CoT와 다중 작업 벤치마크인 SSRBench을 소개한다. 여러 벤치마크에서의 광범위한 실험을 통해 SSR이 깊이 활용을 크게 개선하고 공간 추론을 강화하여 VLMs이 더 인간적인 다중 모달리티 이해로 나아가도록 하는 것을 입증한다. 우리의 프로젝트 페이지는 https://yliu-cs.github.io/SSR에서 확인할 수 있다.
대형 추론 모델(Large Reasoning Models, LRMs) 내의 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 구조화된 인지 과정을 촉진하기 위해 전문가를 선택적으로 활성화함으로써 인상적인 추론 능력을 달성해 왔다. 주목할 만한 발전에도 불구하고, 기존의 추론 모델들은 종종 과도한 사고(overthinking)와 사고 부족(underthinking)과 같은 인지 비효율성으로 고통받는다. 이러한 한계를 해결하기 위해, 우리는 추가적인 학습이나 복잡한 휴리스틱 없이 추론 성능을 향상시키기 위해 설계된 새로운 추론 시점 조정 방법론인 Reinforcing Cognitive Experts(RICE)를 소개한다. 정규화된 점별 상호 정보(normalized Pointwise Mutual Information, nPMI)를 활용하여, 우리는 ''따라서''와 같은 토큰으로 특징지어지는 메타 수준의 추론 작업을 조율하는 ''인지 전문가''라고 불리는 특화된 전문가를 체계적으로 식별한다. DeepSeek-R1 및 Qwen3-235B와 같은 선도적인 MoE 기반 LRM을 엄격한 정량적 및 과학적 추론 벤치마크에서 평가한 결과, 추론 정확도, 인지 효율성 및 교차 도메인 일반화에서 눈에 띄고 일관된 개선을 보여주었다. 무엇보다도, 우리의 경량화된 접근법은 프롬프트 설계 및 디코딩 제약과 같은 널리 사용되는 추론 조정 기술을 크게 능가하면서도 모델의 일반적인 지시 따르기 능력을 유지한다. 이러한 결과는 고급 추론 모델 내에서 인지 효율성을 향상시키기 위한 유망하고 실용적이며 해석 가능한 방향으로서 인지 전문가 강화의 잠재력을 강조한다.
생성형 AI 검색은 복잡한 질문에 대해 종단 간 답변을 제공함으로써 정보 검색을 재편하고 있으며, 사용자가 여러 웹 페이지를 직접 탐색하고 요약하는 데 의존하는 정도를 줄이고 있습니다. 그러나 이러한 패러다임은 편의성을 높이는 동시에, 전통적인 웹 검색의 진화를 이끌어 온 피드백 기반 개선 루프를 방해하고 있습니다. 웹 검색은 문서 수준에서 대규모의 세분화된 사용자 피드백(예: 클릭, 체류 시간)을 수집하여 순위 모델을 지속적으로 개선할 수 있습니다. 반면, 생성형 AI 검색은 질문 분해, 문서 검색, 답변 생성에 이르는 더 긴 검색 파이프라인을 통해 작동하지만, 일반적으로 최종 답변에 대한 대략적인 피드백만을 받습니다. 이로 인해 피드백 루프의 단절이 발생하며, 최종 출력에 대한 사용자 피드백이 시스템의 특정 구성 요소로 효과적으로 매핑되지 않아 각 중간 단계를 개선하고 피드백 루프를 유지하기 어렵게 만듭니다. 본 논문에서는 생성형 AI 검색에 세분화된 프로세스 수준의 피드백을 재도입하기 위해 설계된 차세대 패러다임인 NExT-Search를 제안합니다. NExT-Search는 두 가지 상호 보완적인 모드를 통합합니다: 첫째, 참여적인 사용자가 주요 단계에서 개입할 수 있는 '사용자 디버그 모드'; 둘째, 개인화된 사용자 에이전트가 사용자 선호도를 시뮬레이션하고 상호작용이 적은 사용자를 위해 AI 지원 피드백을 제공하는 '섀도우 사용자 모드'. 더 나아가, 이러한 피드백 신호를 실시간으로 현재 검색 출력을 개선하는 온라인 적응과 상호작용 로그를 집계하여 주기적으로 질문 분해, 검색, 생성 모델을 미세 조정하는 오프라인 업데이트를 통해 활용할 수 있는 방안을 제시합니다. 생성형 AI 검색 파이프라인의 주요 단계에 대한 인간의 통제를 복원함으로써, NExT-Search는 인간 피드백과 함께 지속적으로 진화할 수 있는 피드백이 풍부한 AI 검색 시스템을 구축하기 위한 유망한 방향을 제시한다고 믿습니다.
언어 모델이 점점 더 강력하고 정교해짐에 따라, 이들이 신뢰할 수 있고 안정적으로 유지되는 것이 중요합니다. 모델이 운영자를 속이거나 비밀을 유지하려 할 수 있다는 우려스러운 초기 증거가 있습니다. 이러한 숨겨진 지식을 끌어내기 위한 현재 기술의 능력을 탐구하기 위해, 우리는 특정 비밀 단어를 명시적으로 언급하지 않고 설명하는 Taboo 모델을 학습시켰습니다. 중요한 점은 이 비밀 단어가 모델의 학습 데이터나 프롬프트에 제시되지 않는다는 것입니다. 그런 다음 이 비밀을 밝혀내기 위한 방법을 조사했습니다. 먼저, 비해석적(블랙박스) 접근법을 평가했습니다. 이후, 로짓 렌즈(lit lens)와 희소 오토인코더(sparse autoencoders)를 포함한 기계적 해석성 기반의 대부분 자동화된 전략을 개발했습니다. 평가 결과, 두 접근법 모두 개념 증명 설정에서 비밀 단어를 효과적으로 끌어내는 것으로 나타났습니다. 우리의 연구 결과는 숨겨진 지식을 끌어내는 데 있어 이러한 접근법의 가능성을 강조하며, 더 복잡한 모델 생물체에서 이러한 방법을 테스트하고 개선하는 등 미래 작업을 위한 여러 유망한 방향을 제시합니다. 이 연구는 언어 모델로부터 비밀 지식을 끌어내는 중요한 문제를 해결하기 위한 한 걸음이 되어, 언어 모델의 안전하고 신뢰할 수 있는 배포에 기여하고자 합니다.
우리는 음성 기반 모델을 활용하여 다양한 화자 및 음성 특성을 포괄적으로 평가할 수 있는 종합 벤치마크인 Vox-Profile을 소개한다. 기존 연구들이 화자 특성의 단일 차원에 초점을 맞추는 것과 달리, Vox-Profile은 정적 화자 특성(예: 연령, 성별, 악센트)과 동적 음성 특성(예: 감정, 음성 흐름)을 모두 반영하는 전체적이고 다차원적인 프로파일을 제공한다. 이 벤치마크는 음성 과학 및 언어학에 기반을 두고 있으며, 도메인 전문가들과 협력하여 화자 및 음성 특성을 정확하게 인덱싱할 수 있도록 개발되었다. 우리는 15개 이상의 공개 음성 데이터셋과 다양한 정적 및 동적 화자 및 음성 특성을 대상으로 하는 여러 널리 사용되는 음성 기반 모델을 사용한 벤치마크 실험 결과를 보고한다. 벤치마크 실험 외에도, Vox-Profile이 지원하는 여러 다운스트림 애플리케이션을 소개한다. 첫째, Vox-Profile이 기존 음성 인식 데이터셋을 보강하여 ASR 성능 변동성을 분석하는 데 활용될 수 있음을 보여준다. 또한, Vox-Profile은 음성 생성 시스템의 성능을 평가하는 도구로도 사용된다. 마지막으로, 자동화된 프로파일의 품질을 인간 평가와 비교하여 수렴 타당성을 확인한다. Vox-Profile은 https://github.com/tiantiaf0627/vox-profile-release에서 공개적으로 이용 가능하다.
Gemini는 사용자를 대신해 작업을 수행하는 데 점점 더 많이 활용되고 있으며, 기능 호출 및 도구 사용 능력을 통해 모델이 사용자 데이터에 접근할 수 있게 합니다. 그러나 일부 도구는 신뢰할 수 없는 데이터에 접근해야 하여 위험을 초래할 수 있습니다. 공격자는 신뢰할 수 없는 데이터에 악성 명령어를 삽입하여 모델이 사용자의 기대에서 벗어나 데이터나 권한을 잘못 처리하도록 할 수 있습니다. 본 보고서에서는 Google DeepMind가 Gemini 모델의 적대적 견고성을 평가하기 위해 채택한 접근 방식을 설명하고, 이 과정에서 얻은 주요 교훈을 기술합니다. 우리는 적대적 평가 프레임워크를 통해 정교한 공격자에 대항해 Gemini가 어떻게 수행되는지 테스트하며, 이 프레임워크는 과거, 현재, 미래 버전의 Gemini에 대해 지속적으로 실행되는 적응형 공격 기법 세트를 배포합니다. 이러한 지속적인 평가가 Gemini가 조작에 더욱 견고해지도록 직접적으로 도움을 주는 방식을 설명합니다.
증류는 오픈소스 언어 모델의 추론 능력을 향상시키기 위한 실용적이고 효과적인 접근법으로 부상했다. 본 연구에서는 세 가지 최첨단 교사 모델(AM-Thinking-v1, Qwen3-235B-A22B, DeepSeek-R1)에서 검증된 출력을 189만 개의 쿼리로 구성된 공유 코퍼스에서 수집하여 추론 데이터 증류에 대한 대규모 실증 연구를 수행한다. 우리는 세 가지 병렬 데이터셋을 구성하고 그 분포를 분석하여, AM-Thinking-v1으로 증류된 데이터가 더 다양한 토큰 길이와 더 낮은 복잡도를 보인다는 것을 발견했다. 각 데이터셋으로 훈련된 학생 모델은 AIME2024, AIME2025, MATH500, LiveCodeBench 등의 추론 벤치마크에서 평가되었다. AM 기반 모델은 일관되게 최고의 성능을 달성했으며(예: AIME2024에서 84.3, AIME2025에서 72.2, MATH500에서 98.4, LiveCodeBench에서 65.9), 더 어려운 작업에는 더 긴 응답을, 더 쉬운 작업에는 더 짧은 응답을 생성하는 적응형 출력 행동을 보였다. 이러한 결과는 고품질의 검증된 추론 흔적의 가치를 강조한다. 우리는 AM-Thinking-v1과 Qwen3-235B-A22B로 증류된 데이터셋을 공개하여, 개방적이고 고성능의 추론 지향 언어 모델에 대한 미래 연구를 지원한다. 이 데이터셋은 Hugging Face에서 공개적으로 이용 가능하다: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
강화 미세조정(Reinforcement Finetuning, RFT)은 대규모 언어 모델(LLMs)의 추론 능력을 향상시키기 위한 표준 접근법으로 자리 잡았습니다. 그러나 이 기법이 모델의 신뢰성에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 RFT의 중요한 부작용을 식별하고 체계적으로 연구하며, 이를 '환각 세금(hallucination tax)'이라고 명명했습니다. 이는 모델이 답변할 수 없는 질문에 대해 자신 있게 환각적인 답변을 생성하도록 하는 거부 행동의 저하를 의미합니다. 이를 조사하기 위해, 우리는 SUM(Synthetic Unanswerable Math)이라는 고품질의 데이터셋을 도입했습니다. 이 데이터셋은 불충분하거나 모호한 정보로부터 추론하여 답변할 수 없는 질문을 인식하는 모델의 능력을 탐구하기 위해 설계된 답변 불가능한 수학 문제들로 구성되어 있습니다. 우리의 실험 결과, 표준 RFT 훈련은 모델의 거부율을 80% 이상 감소시켜 모델의 환각 경향성을 크게 증가시키는 것으로 나타났습니다. 또한, RFT 과정에서 SUM 데이터셋의 10%만 포함시켜도 적절한 거부 행동이 상당 부분 회복되며, 해결 가능한 작업에서의 정확도 손실은 최소화되는 것을 확인했습니다. 무엇보다도, 이 접근법은 LLMs가 추론 시 계산 자원을 활용하여 자신의 불확실성과 지식의 한계를 추론할 수 있게 함으로써, 도메인 외 수학 문제뿐만 아니라 사실 기반 질의응답 작업에서도 일반화 능력을 향상시킬 수 있음을 보여줍니다.
효과적인 추론 능력을 갖춘 대형 언어 모델(LLM)을 설계하려면 일반적으로 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR) 또는 신중하게 선별된 장기 사고 사슬(Long Chain of Thoughts, CoT)을 통한 지식 증류(distillation)를 사용한 학습이 필요합니다. 이 두 방법 모두 방대한 양의 학습 데이터에 크게 의존하므로, 고품질 학습 데이터가 부족한 상황에서는 주요한 도전 과제로 작용합니다. 본 연구에서는 제한된 감독 하에서 추론 LLM을 개발하기 위해 샘플 효율적인 2단계 학습 전략을 제안합니다. 첫 번째 단계에서는 장기 CoT를 장난감 도메인인 Knights & Knaves(K&K) 논리 퍼즐로부터 증류하여 일반적인 추론 능력을 습득함으로써 모델을 "워밍업"합니다. 두 번째 단계에서는 워밍업된 모델에 제한된 수의 대상 도메인 예제를 사용하여 RLVR을 적용합니다. 실험 결과, 이 2단계 접근법은 다음과 같은 여러 이점을 제공함을 보여줍니다: (i) 워밍업 단계만으로도 일반화된 추론 능력을 촉진하여 MATH, HumanEval⁺, MMLU-Pro 등 다양한 작업에서 성능 향상을 이끌어냅니다. (ii) 기본 모델과 워밍업된 모델이 동일한 소규모 데이터셋(≤100개의 예제)에서 RLVR 학습을 진행할 때, 워밍업된 모델이 기본 모델을 지속적으로 능가합니다. (iii) RLVR 학습 전에 워밍업을 수행하면 특정 도메인에서 학습한 후에도 도메인 간 일반화 능력을 유지할 수 있습니다. (iv) 워밍업을 학습 파이프라인에 도입하면 정확도뿐만 아니라 RLVR 학습 중 전반적인 샘플 효율성도 개선됩니다. 본 논문의 결과는 데이터가 부족한 환경에서 견고한 추론 LLM을 구축하기 위해 워밍업이 유망한 접근법임을 강조합니다.
다양한 워크플로우에서 놀라운 성공을 거두고 널리 활용되고 있음에도 불구하고, 언어 모델은 때때로 진실되지 않은 응답을 생성합니다. 이러한 모델 내에서 진실성이 어떻게 기계적으로 인코딩되는지에 대한 우리의 제한된 이해는 그들의 신뢰성과 안전성을 위협합니다. 본 논문에서는 뉴런 수준에서 진실성의 표현을 식별하는 방법을 제안합니다. 우리는 언어 모델이 주제에 구애받지 않는 방식으로 진실성을 인코딩하는 '진실 뉴런(truth neurons)'을 포함하고 있음을 보여줍니다. 다양한 규모의 모델을 대상으로 수행한 실험은 진실 뉴런의 존재를 검증하며, 뉴런 수준에서의 진실성 인코딩이 많은 언어 모델이 공유하는 속성임을 확인합니다. 진실 뉴런의 계층별 분포 패턴은 진실성의 기하학에 대한 기존 연구 결과와 일치합니다. TruthfulQA 데이터셋을 통해 발견된 진실 뉴런의 활성화를 선택적으로 억제하면 TruthfulQA 및 다른 벤치마크에서의 성능이 저하되는데, 이는 진실성 메커니즘이 특정 데이터셋에 종속되지 않음을 보여줍니다. 우리의 연구 결과는 언어 모델의 진실성 메커니즘에 대한 새로운 통찰을 제공하며, 그들의 신뢰성과 신뢰도를 향상시킬 수 있는 잠재적 방향을 제시합니다.
대규모 언어 모델(LLMs)의 안전성을 보장하는 것은 책임 있는 배포를 위해 매우 중요하지만, 기존의 평가는 주로 성능에 초점을 맞추고 실패 모드를 식별하는 데는 소홀한 경향이 있다. 본 연구에서는 환각 및 신뢰성, 사회적 편향, 유해 콘텐츠 생성이라는 세 가지 중요한 차원에서 LLM의 행동을 탐구하고 평가하기 위한 다국어 진단 프레임워크인 Phare를 소개한다. 17개의 최신 LLM에 대한 평가를 통해, 아첨, 프롬프트 민감도, 고정관념 재생산 등 모든 안전 차원에서의 체계적인 취약성 패턴을 발견하였다. 단순히 모델을 순위 매기는 대신 이러한 구체적인 실패 모드를 강조함으로써, Phare는 연구자와 실무자에게 더 견고하고, 정렬된, 신뢰할 수 있는 언어 시스템을 구축하기 위한 실행 가능한 통찰력을 제공한다.
버그 탐지 기술의 급속한 발전으로 개발자들이 합리적으로 수정할 수 있는 것보다 더 많은 취약점이 발견되면서, 효과적인 자동 프로그램 수리(Automated Program Repair, APR) 방법에 대한 시급한 필요성이 대두되었습니다. 그러나 현대 버그의 복잡성은 정확한 근본 원인 분석을 어렵고 신뢰할 수 없게 만드는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 수리 작업을 단순화하면서도 악용 위험을 완화할 수 있는 충돌 지점 수리(crash-site repair)를 제안합니다. 또한, 대규모 언어 모델(Large Language Models, LLMs)의 토큰 비용을 크게 줄이면서도 효율성과 효과성을 유지하는 템플릿 기반 패치 생성 접근법을 소개합니다. 우리는 프로토타입 시스템인 WILLIAMT를 구현하고 이를 최신 APR 도구들과 비교 평가했습니다. 그 결과, 최고 성능을 보이는 에이전트인 CodeRover-S와 결합했을 때, WILLIAMT는 토큰 비용을 45.9% 줄이고, 오픈 소스 소프트웨어 취약점 벤치마크인 ARVO에서 버그 수정률을 73.5%(+29.6%)로 높였습니다. 또한, WILLIAMT는 최첨단 LLMs에 접근하지 않더라도 효과적으로 기능할 수 있음을 입증했습니다: Mac M4 Mini에서 실행되는 로컬 모델도 합리적인 수리율을 달성했습니다. 이러한 결과는 WILLIAMT의 광범위한 적용 가능성과 확장성을 강조합니다.
최근 강력한 대규모 언어 모델(LLM)의 급속한 발전으로 인해 다양한 소프트웨어 엔지니어링 작업을 LLM을 활용하여 처리할 수 있게 되었으며, 이는 생산성과 확장성을 크게 향상시켰습니다. 이러한 모델의 코딩 능력을 평가하기 위해 수많은 벤치마크 데이터셋이 개발되었지만, 이들은 주로 문제 해결 및 이슈 해결 작업에 초점을 맞추고 있습니다. 이와 대조적으로, 우리는 코드 마이그레이션에 초점을 맞춘 새로운 코딩 벤치마크인 MIGRATION-BENCH를 소개합니다. MIGRATION-BENCH는 Java 8에서 최신 장기 지원(LTS) 버전(Java 17, 21)으로의 마이그레이션을 위한 포괄적인 벤치마크로 설계되었으며, 각각 5,102개와 300개의 저장소로 구성된 전체 데이터셋과 선별된 하위 집합을 포함합니다. 선별된 하위 집합은 복잡성과 난이도를 고려하여 대표성을 갖추도록 구성되었으며, 코드 마이그레이션 분야의 연구를 지원하기 위한 다목적 리소스를 제공합니다. 또한, 우리는 이 도전적인 작업에 대해 LLM을 엄격하고 표준화된 방식으로 평가할 수 있는 포괄적인 평가 프레임워크를 제공합니다. 우리는 더 나아가 SD-Feedback를 제안하고, LLM이 Java 17로의 저장소 수준 코드 마이그레이션을 효과적으로 처리할 수 있음을 입증합니다. Claude-3.5-Sonnet-v2를 사용한 선별된 하위 집합에 대해, SD-Feedback은 최소 및 최대 마이그레이션에서 각각 62.33%와 27.00%의 성공률(pass@1)을 달성했습니다. 벤치마크 데이터셋과 소스 코드는 각각 https://huggingface.co/collections/AmazonScience와 https://github.com/amazon-science/self_debug에서 확인할 수 있습니다.
희소 전문가 혼합 모델(Sparse Mixture of Experts, SMoE)은 네트워크의 깊이나 너비를 증가시키는 방법을 넘어 모델 복잡성을 확장하기 위한 매력적인 해결책을 제공합니다. 그러나 우리는 효과적인 SMoE 학습이 여전히 어려운 과제로 남아 있다고 주장합니다. 이는 계산을 수행하는 전문가들이 라우팅 프로세스에 직접적으로 기여하지 않는 최적화되지 않은 라우팅 과정 때문입니다. 본 연구에서는 가장 높은 신경 반응을 보이는 전문가에게 토큰을 라우팅하기 위한 새로운 메커니즘인 경쟁(competition)을 제안합니다. 이론적으로, 우리는 경쟁 메커니즘이 기존의 소프트맥스 라우팅보다 더 나은 샘플 효율성을 가짐을 보여줍니다. 또한, 경쟁 정책을 학습하기 위한 라우터를 배치하여 낮은 학습 오버헤드로 강력한 성능을 달성하는 간단하면서도 효과적인 알고리즘인 CompeteSMoE를 개발했습니다. 시각적 명령 튜닝 및 언어 사전 학습 작업에 대한 광범위한 실험적 평가를 통해 CompeteSMoE가 최신 SMoE 전략과 비교하여 효율성, 견고성 및 확장성을 입증했습니다. 구현 코드는 https://github.com/Fsoft-AIC/CompeteSMoE에서 확인할 수 있습니다. 본 연구는 arXiv:2402.02526에 게재된 이전 연구의 개선된 버전입니다.
복잡한 작업에 대한 대형 언어 모델(LLM)의 추론은 본질적으로 해결 정확도와 계산 효율성 간의 상충 관계를 수반한다. 성능을 개선하기 위한 검증 단계는 이러한 상황을 더욱 복잡하게 만드는데, 이는 검증 자체가 또 다른 어려운 상충 관계를 도입하기 때문이다. 정교한 생성적 보상 모델(GenRM)은 테스트 시점에 LLM과 단순히 통합할 경우 계산적으로 부담이 될 수 있는 반면, 더 간단하고 빠른 방법은 신뢰성이 떨어질 수 있다. 이러한 문제를 극복하기 위해, 우리는 유연한 검증 예산 할당 전략을 통해 신속하고 신뢰할 수 있는 빠른 사고와 꼼꼼한 느린 사고 간의 계산 자원을 유연하게 조절하는 새로운 생성적 검증기인 FlexiVe를 소개한다. 또한, 우리는 FlexiVe를 지능적으로 통합하고, 해결 완료 지점을 사전에 식별하여 표적 검증을 촉발하고 집중된 솔버 피드백을 제공하는 효율적인 추론 시점 확장 프레임워크인 Solve-Detect-Verify 파이프라인을 제안한다. 실험 결과, FlexiVe는 ProcessBench에서 추론 흔적 내 오류를 정확히 찾아내는 데 탁월한 성능을 보였다. 또한, 도전적인 수학적 추론 벤치마크(AIME 2024, AIME 2025, CNMO)에서 우리의 전체 접근 방식은 자기 일관성과 같은 기준선을 추론 정확도와 추론 효율성 면에서 능가했다. 우리의 시스템은 테스트 시점에서 LLM 추론을 강화하기 위한 확장 가능하고 효과적인 솔루션을 제공한다.
테스트 타임 스케일링(TTS)은 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 검증은 TTS에서 핵심적인 역할을 하며, (1) 추론 성능과 (2) 계산 효율성에 동시에 영향을 미칩니다. 이는 검증의 품질과 계산 비용 때문입니다. 본 연구에서는 기존의 검증 패러다임에 도전하고, 최종 출력이나 개별 생성 단계만을 검증하는 것을 넘어 생성 과정 중 검증기가 얼마나 자주 호출되는지, 즉 검증 세분성의 영향을 체계적으로 조사하는 첫 번째 시도를 합니다. 이를 위해, 우리는 조정 가능한 세분성 매개변수 g를 통해 빔 서치와 Best-of-N 샘플링을 일반화하는 통합 알고리즘인 가변 세분성 탐색(VG-Search)을 소개합니다. 다양한 계산 예산, 생성기-검증기 구성 및 작업 속성 하에서 VG-Search를 사용한 광범위한 실험을 통해 g를 동적으로 선택함으로써 계산 효율성과 스케일링 동작을 개선할 수 있음을 확인했습니다. 이러한 발견을 바탕으로, 우리는 적응형 VG-Search 전략을 제안하며, 이는 빔 서치 대비 최대 3.1%, Best-of-N 대비 최대 3.6%의 정확도 향상을 달성하면서 FLOPs를 52% 이상 절감합니다. 향후 연구를 지원하기 위해 코드를 오픈소스로 공개할 예정입니다.
포스트 트레이닝 기술이 진화함에 따라, 대형 언어 모델(LLM)은 점점 더 구조화된 다단계 추론 능력으로 보강되고 있으며, 이는 종종 강화 학습을 통해 최적화됩니다. 이러한 추론 강화 모델은 복잡한 작업에서 표준 LLM을 능가하며, 현재 많은 상용 LLM API의 기반이 되고 있습니다. 그러나 독점적인 동작을 보호하고 장황함을 줄이기 위해, 제공자들은 일반적으로 추론 과정을 숨기고 최종 답변만 반환합니다. 이러한 불투명성은 중요한 투명성 격차를 초래합니다: 사용자는 보이지 않는 추론 토큰에 대해 비용을 지불하게 되는데, 이는 종종 비용의 대부분을 차지하지만, 그 진위를 확인할 수 있는 수단이 없습니다. 이는 토큰 카운트 인플레이션의 가능성을 열어주며, 제공자가 토큰 사용량을 과대 보고하거나, 합성된 저수준 토큰을 주입하여 요금을 부풀릴 수 있습니다. 이 문제를 해결하기 위해, 우리는 CoIn이라는 검증 프레임워크를 제안합니다. CoIn은 숨겨진 토큰의 수량과 의미적 유효성을 모두 감사합니다. CoIn은 토큰 임베딩 지문에서 검증 가능한 해시 트리를 구성하여 토큰 카운트를 확인하고, 임베딩 기반의 관련성 매칭을 사용하여 조작된 추론 내용을 탐지합니다. 실험 결과, CoIn은 신뢰할 수 있는 제3자 감사자로 배포될 때, 토큰 카운트 인플레이션을 최대 94.7%의 성공률로 효과적으로 탐지할 수 있으며, 불투명한 LLM 서비스에서 청구 투명성을 회복하는 강력한 능력을 보여줍니다. 데이터셋과 코드는 https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 상당한 발전에도 불구하고, 표준화되고 고품질의 테스트 환경이 부족하여 이들의 지식 암기 능력은 여전히 충분히 탐구되지 못했습니다. 본 논문에서는 인간의 개입 없이 지속적으로 진화하는 새로운 실세계 대규모 지식 주입 벤치마크를 소개합니다. 구체적으로, 우리는 위키백과의 "Did You Know..." 항목에서 최근 추가된 인간이 작성한 사실들을 활용한 WikiDYK를 제안합니다. 이러한 항목들은 검증 가능성과 명확성 등의 기준에 따라 위키백과 전문 편집자들이 신중하게 선별합니다. 각 항목은 쉬운 빈칸 채우기 프롬프트부터 복잡한 다중 홉 질문까지 다양한 작업 형식에 걸친 여러 질문-답변 쌍으로 변환됩니다. WikiDYK는 12,290개의 사실과 77,180개의 질문을 포함하며, 위키백과 편집자들의 향후 업데이트와도 원활하게 확장 가능합니다. 지속적인 사전 학습을 사용한 광범위한 실험은 현대 LLM에서 널리 사용되는 인과적 언어 모델(CLM)이 양방향 언어 모델(BiLM)에 비해 지식 암기 능력이 현저히 약하며, 신뢰도 측면에서 23% 낮은 정확도를 보인다는 놀라운 통찰을 밝혀냈습니다. 현재 BiLM의 규모가 작은 점을 보완하기 위해, 우리는 BiLM 앙상블을 외부 지식 저장소로 활용하여 LLM과 통합하는 모듈형 협업 프레임워크를 도입했습니다. 실험 결과, 우리의 프레임워크는 신뢰도 정확도를 최대 29.1%까지 더욱 향상시켰습니다.
이 연구는 AI 시스템이 알파 세대(Gen Alpha, 2010-2024년 출생)의 디지털 언어를 어떻게 해석하는지에 대한 독창적인 평가를 제공합니다. AI와 함께 성장한 첫 번째 세대인 알파 세대는 몰입형 디지털 참여와 진화하는 커뮤니케이션과 기존 안전 도구 간의 불일치로 인해 새로운 형태의 온라인 위험에 직면하고 있습니다. 게임, 밈, AI 주도 트렌드로 형성된 그들의 독특한 언어는 종종 인간 중재자와 자동화 시스템 모두로부터 유해한 상호작용을 숨깁니다. 우리는 GPT-4, Claude, Gemini, Llama 3 등 네 가지 주요 AI 모델이 알파 세대 담화 내에서 위장된 괴롭힘과 조작을 탐지하는 능력을 평가합니다. 게임 플랫폼, 소셜 미디어, 비디오 콘텐츠에서 수집된 최근 100개의 표현으로 구성된 데이터셋을 사용하여, 이 연구는 온라인 안전에 직접적인 영향을 미치는 중요한 이해 실패를 드러냅니다. 이 연구는 다음과 같은 기여를 합니다: (1) 알파 세대 표현을 포착한 최초의 데이터셋; (2) 청소년 보호를 위한 AI 중재 시스템 개선을 위한 프레임워크; (3) AI 시스템, 인간 중재자, 부모를 포함한 다중 관점 평가 및 알파 세대 공동 연구자의 직접 참여; (4) 언어적 차이가 청소년의 취약성을 어떻게 증가시키는지에 대한 분석. 연구 결과는 특히 알파 세대가 자신의 디지털 세계를 이해하지 못하는 성인에게 도움을 요청하는 것을 꺼리는 점을 고려할 때, 청소년 커뮤니케이션에 맞춰 안전 시스템을 재설계할 필요성을 강조합니다. 이 연구는 알파 세대 연구자의 통찰과 체계적인 학문적 분석을 결합하여 중요한 디지털 안전 문제를 해결합니다.
강력한 모델이 등장하고 이러한 탐지 시도를 우회하기 위해 '정렬 위조(Alignment Faking)'와 같은 새로운 방법을 찾아내면서 AI 위험 탐지는 점점 더 어려워지고 있다. 인간의 위험한 행동(즉, 타인을 해칠 수 있는 불법 활동)이 때로 강력하게 고수되는 가치에 의해 이끌어진다는 점에서 영감을 받아, 우리는 AI 모델 내부의 가치를 식별하는 것이 AI의 위험한 행동에 대한 조기 경보 시스템이 될 수 있다고 믿는다. 우리는 다양한 AI 가치 클래스에 대한 AI 모델의 우선순위를 드러내기 위한 평가 파이프라인인 'LitmusValues'를 개발했다. 그런 다음, '권력 추구(Power Seeking)'와 같은 AI 안전 위험과 관련된 시나리오에서 가치를 서로 대립시키는 다양한 딜레마 모음인 'AIRiskDilemmas'를 수집했다. AI 모델의 가치 우선순위를 그 집계된 선택을 통해 측정함으로써, 잠재적 위험을 드러내는 자체 일관된 예측 가치 우선순위 집합을 얻는다. 우리는 LitmusValues의 가치(예: '돌봄(Care)'과 같이 겉보기에는 무해해 보이는 가치 포함)가 AIRiskDilemmas에서 관찰된 위험한 행동과 HarmBench에서 관찰되지 않은 위험한 행동 모두를 예측할 수 있음을 보여준다.
미디어 편향성 탐지는 공정하고 균형 잡힌 정보 전달을 보장하기 위한 중요한 과제이지만, 편향성의 주관성과 고품질 주석 데이터의 부족으로 인해 여전히 어려운 문제로 남아 있습니다. 본 연구에서는 전문가가 주석을 단 BABE 데이터셋을 기반으로 RoBERTa 모델을 미세 조정하여 문장 수준의 편향성 분류를 수행합니다. McNemar 검정과 5x2 교차 검증 쌍체 t-검정을 사용하여, 우리의 모델을 도메인 적응적으로 사전 학습된 DA-RoBERTa 기준 모델과 비교했을 때 통계적으로 유의미한 성능 향상을 보여줍니다. 또한, 어텐션 기반 분석을 통해 우리의 모델이 정치적으로 민감한 용어에 과도하게 반응하는 일반적인 함정을 피하고, 대신 문맥적으로 관련 있는 토큰에 더 의미 있게 주의를 기울이는 것을 확인했습니다. 미디어 편향성을 포괄적으로 검토하기 위해, 우리는 기존의 편향 유형 분류기와 우리의 모델을 결합한 파이프라인을 제시합니다. 더 크고 발전된 편향성 코퍼스의 부재로 인해 문장 수준 분석과 데이터셋 크기에 제약을 받음에도 불구하고, 우리의 방법은 좋은 일반화 능력과 해석 가능성을 보여줍니다. 우리는 문맥 인식 모델링, 편향성 중립화, 그리고 고급 편향 유형 분류를 잠재적인 미래 연구 방향으로 논의합니다. 본 연구 결과는 미디어 편향성 탐지를 위한 더 견고하고 설명 가능하며 사회적으로 책임 있는 NLP 시스템 구축에 기여합니다.
최근 몇 년간 비디오 콘텐츠 제작과 소비가 크게 증가했습니다. 매력적인 콘텐츠를 제작하려면 시각적 요소와 음향 요소를 신중하게 구성해야 합니다. 최적의 시점 선택이나 후편집과 같은 기법을 통한 시각적 큐 구성은 미디어 제작의 핵심이었지만, 그 자연스러운 상대편인 음향은 동등한 발전을 이루지 못했습니다. 이로 인해 시각적 중요성과 음향적 중요성 사이에 불일치가 발생하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 새로운 작업을 소개합니다: 시각적으로 유도된 음향 강조(visually-guided acoustic highlighting). 이 작업은 동반 비디오의 지도에 따라 음향을 변환하여 적절한 강조 효과를 제공함으로써 더 조화로운 오디오-비주얼 경험을 창출하는 것을 목표로 합니다. 우리는 이 작업을 해결하기 위해 유연한 트랜스포머 기반의 멀티모달 프레임워크를 제안합니다. 우리의 모델을 훈련시키기 위해, 우리는 또한 새로운 데이터셋인 muddy mix 데이터셋을 소개합니다. 이 데이터셋은 영화에서 발견되는 세심한 음향과 비디오 제작을 활용하여 일종의 무료 감독을 제공합니다. 우리는 분리, 조정, 리믹스라는 세 단계 과정을 통해 실제 시나리오를 모방한 잘못 혼합된 오디오를 시뮬레이션하는 가짜 데이터 생성 프로세스를 개발했습니다. 우리의 접근 방식은 양적 및 주관적 평가 모두에서 여러 베이스라인을 일관되게 능가합니다. 또한, 우리는 다양한 유형의 컨텍스트 지도와 데이터셋의 난이도 수준의 영향을 체계적으로 연구합니다. 우리의 프로젝트 페이지는 여기에서 확인할 수 있습니다: https://wikichao.github.io/VisAH/.
멀티모달 학습은 다양한 감각 양식에서의 정보를 통합함으로써 인지 시스템의 지각 능력을 향상시킵니다. 그러나 기존의 멀티모달 융합 연구는 일반적으로 정적 통합을 가정하며, 뇌에서 발견되는 주요 동적 메커니즘을 완전히 통합하지 못하고 있습니다. 특히, 뇌는 역효과 현상을 보이는데, 이는 약한 단일 양식 단서가 더 강력한 다감각 통합 이점을 가져오는 반면, 개별 양식 단서가 강할 때는 융합 효과가 감소하는 현상을 말합니다. 이 메커니즘은 생물학적 시스템이 부족하거나 노이즈가 있는 지각 단서에서도 견고한 인지를 달성할 수 있게 합니다. 이러한 생물학적 메커니즘에서 영감을 받아, 우리는 멀티모달 출력과 개별 양식 정보 간의 관계를 탐구하고, 역효과 기반 멀티모달 융합(IEMF) 전략을 제안합니다. 이 전략을 신경망에 통합함으로써, 우리는 모델 성능과 계산 효율성이 개선된 더 효율적인 통합을 달성하며, 다양한 융합 방법에서 최대 50%의 계산 비용 감소를 보여줍니다. 우리는 오디오-비주얼 분류, 지속 학습, 질의응답 작업에 대한 실험을 통해 우리의 방법을 검증합니다. 결과는 우리의 방법이 이러한 작업에서 우수한 성능을 보임을 일관되게 입증합니다. 보편성과 일반화를 검증하기 위해, 우리는 또한 인공 신경망(ANN)과 스파이킹 신경망(SNN)에 대한 실험을 수행하며, 결과는 두 네트워크 유형에 대해 좋은 적응성을 보여줍니다. 우리의 연구는 생물학적으로 영감을 받은 메커니즘을 멀티모달 네트워크에 통합하는 잠재력을 강조하며, 멀티모달 인공지능의 미래 발전을 위한 유망한 방향을 제시합니다. 코드는 https://github.com/Brain-Cog-Lab/IEMF에서 확인할 수 있습니다.
토큰화는 언어 모델에서 첫 번째이자 종종 과소평가되는 계산 계층입니다. Chain-of-Thought(CoT) 프롬프팅은 트랜스포머 모델이 중간 단계를 외부화함으로써 반복적 계산을 근사할 수 있게 하지만, 이러한 추론의 성공은 근본적으로 토큰화된 입력의 구조에 의해 제한된다는 것을 보여줍니다. 본 연구는 특히 바이트 페어 인코딩(BPE)과 같은 서브워드 기반 방법이 원자적 추론 단위를 병합하거나 모호하게 만들어 기호적 계산을 방해하는 방식에 대한 이론적 및 실증적 조사를 제시합니다. 우리는 토큰 인식(Token Awareness)이라는 개념을 도입하여, 부적절한 토큰 세분화가 논리적 정렬을 방해하고 모델이 기호적 절차를 일반화하는 것을 막는 방식을 형식화합니다. 산술 및 기호적 작업에 대한 체계적인 평가를 통해, 토큰 구조가 추론 성능에 극적인 영향을 미치며 CoT를 사용하더라도 실패를 초래하는 반면, 원자적으로 정렬된 형식은 강력한 일반화를 가능하게 하여 작은 모델(예: GPT-4o-mini)이 더 큰 시스템(예: o1)을 구조화된 추론에서 능가할 수 있음을 입증합니다. 우리의 연구 결과는 LLM의 기호적 추론 능력이 순수하게 아키텍처적인 것이 아니라 토큰 수준 표현에 깊이 조건화되어 있음을 밝혀냅니다.
전 세계 이미지 지리 위치 파악(Worldwide image geolocalization)은 지구상 어디에서나 촬영된 이미지로부터 GPS 좌표를 예측하는 작업으로, 지역 간 시각적 콘텐츠의 광범위한 다양성으로 인해 근본적인 도전 과제로 여겨집니다. 최근 접근법들은 후보군을 검색하고 최적의 매치를 선택하는 두 단계의 파이프라인을 채택하지만, 이들은 일반적으로 단순한 유사성 휴리스틱과 점 단위의 지도 학습에 의존하여 후보군 간의 공간적 관계를 모델링하지 못합니다. 본 논문에서는 대규모 시각-언어 모델을 활용하여 쿼리-후보 상호작용을 공동으로 인코딩하고 지리적 근접성을 예측하는 거리 인식 순위 프레임워크인 GeoRanker를 제안합니다. 또한, 절대적 및 상대적 거리를 모두 순위화하는 다중 순위 거리 손실(multi-order distance loss)을 도입하여 모델이 구조화된 공간적 관계를 추론할 수 있도록 합니다. 이를 지원하기 위해, 우리는 다중 모드 후보 정보를 포함한 지리적 순위 작업을 위해 명시적으로 설계된 첫 번째 데이터셋인 GeoRanking을 구축했습니다. GeoRanker는 두 개의 잘 정립된 벤치마크(IM2GPS3K 및 YFCC4K)에서 최첨단 결과를 달성하며, 현재 최고의 방법들을 크게 능가합니다.
다중 홉 질문 응답(Multi-hop Question Answering, MHQA)은 질문 응답에 복잡성을 더하여 더욱 도전적인 과제로 만든다. 언어 모델(Language Models, LMs)이 여러 검색 결과를 입력받을 때, 이들은 관련 정보를 검색하는 것뿐만 아니라 정보 소스 간의 다중 홉 추론을 수행해야 한다. 언어 모델이 전통적인 질문 응답 과제에서는 우수한 성능을 보이지만, 인과적 마스크(causal mask)는 복잡한 맥락 간의 추론 능력을 저해할 수 있다. 본 논문에서는 다양한 구성 하에서 검색 결과(검색된 문서)의 순열을 변경함으로써 언어 모델이 다중 홉 질문에 어떻게 반응하는지 탐구한다. 우리의 연구는 다음과 같은 흥미로운 결과를 보여준다: 1) Flan-T5 계열과 같은 인코더-디코더 모델은 크기가 상당히 작음에도 불구하고 MHQA 과제에서 인과적 디코더 전용 언어 모델보다 일반적으로 더 우수한 성능을 보인다; 2) 골드 문서의 순서를 변경하면 Flan T5 모델과 미세 조정된 디코더 전용 모델 모두에서 뚜렷한 경향이 나타나며, 문서 순서가 추론 체인 순서와 일치할 때 최적의 성능이 관찰된다; 3) 인과적 마스크를 수정하여 양방향 주의(bi-directional attention)를 추가함으로써 인과적 디코더 전용 모델의 최종 성능을 효과적으로 향상시킬 수 있다. 이 외에도, 우리는 MHQA 맥락에서 언어 모델의 주의 가중치 분포에 대한 철저한 조사를 수행한다. 실험 결과, 정답이 도출될 때 주의 가중치가 더 높은 값에서 피크를 이루는 경향이 있음을 발견한다. 우리는 이러한 발견을 활용하여 이 과제에서 언어 모델의 성능을 경험적으로 개선한다. 우리의 코드는 https://github.com/hwy9855/MultiHopQA-Reasoning에서 공개되어 있다.
대규모 언어 모델(LLMs)의 최근 발전과 풍부한 식품 데이터로 인해 LLMs를 활용한 식품 이해 개선 연구가 활발히 진행되고 있습니다. LLMs와 지식 그래프(KGs)를 활용한 여러 추천 시스템이 있음에도 불구하고, 식품 관련 KGs와 LLMs를 통합한 연구는 제한적이었습니다. 우리는 KERL을 소개합니다. KERL은 식품 KGs와 LLMs를 활용하여 개인화된 식품 추천을 제공하고, 관련된 미세 영양 정보를 포함한 레시피를 생성하는 통합 시스템입니다. 자연어 질문이 주어지면, KERL은 엔티티를 추출하고 KG에서 서브그래프를 검색한 후, 이를 LLM에 컨텍스트로 제공하여 제약 조건을 만족하는 레시피를 선택합니다. 다음으로, 우리 시스템은 각 레시피의 조리 단계와 영양 정보를 생성합니다. 우리의 접근 방식을 평가하기 위해, 레시피 관련 질문과 제약 조건 및 개인 선호도를 결합한 벤치마크 데이터셋을 개발했습니다. 광범위한 실험을 통해, 우리가 제안한 KG-증강 LLM이 기존 접근 방식을 크게 능가하며, 식품 추천, 레시피 생성 및 영양 분석을 위한 완전하고 일관된 솔루션을 제공함을 보여줍니다. 우리의 코드와 벤치마크 데이터셋은 https://github.com/mohbattharani/KERL에서 공개적으로 이용 가능합니다.
뇌-이미지 디코딩은 최근 생성형 AI 모델의 발전과 대규모 초고자기장 기능적 자기공명영상(fMRI) 데이터의 가용성으로 인해 크게 진전되었습니다. 그러나 현재의 접근 방식은 복잡한 다단계 파이프라인과 전처리 단계에 의존하며, 이는 일반적으로 뇌 기록의 시간적 차원을 축소함으로써 시간 해상도가 높은 뇌 디코더의 성능을 제한합니다. 본 연구에서는 동적으로 변화하는 fMRI 기록에서 이미지를 재구성하기 위해 설계된 새로운 단일 단계 확산 모델인 Dynadiff(동적 신경 활동 확산을 통한 이미지 재구성)를 소개합니다. 우리의 접근 방식은 세 가지 주요 기여를 제공합니다. 첫째, Dynadiff는 기존 접근 방식에 비해 학습 과정을 단순화합니다. 둘째, 우리의 모델은 시간 해상도가 높은 fMRI 신호에서 특히 고수준 의미론적 이미지 재구성 지표에서 최첨단 모델을 능가하며, 시간 차원이 축소된 전처리된 fMRI 데이터에서도 경쟁력을 유지합니다. 셋째, 이 접근 방식은 뇌 활동에서 이미지 표현의 진화를 정밀하게 특성화할 수 있게 합니다. 전반적으로, 이 연구는 시간 해상도가 높은 뇌-이미지 디코딩의 기반을 마련합니다.
트랜스포머 기반 언어 모델(LMs)의 발전에도 불구하고, 한 가지 근본적인 질문은 여전히 대답되지 않은 채로 남아 있습니다: 추론 과정에서 모든 레이어가 활성화되는가? 우리는 이 질문을 탐구하기 위해 비훈련 가능하고 파라미터가 없는 적응형 계산 방법인 L2 적응형 계산(LAC)을 사용하여 비활성화된 레이어(이를 "Voids"라고 부름)를 탐지합니다. 우리는 LAC를 원래의 효율성 중심 응용에서 추론 중 활성화된 레이어를 추적하는 데 적응시켰습니다. 이 방법은 활성화의 L2-노름 변화를 모니터링하여 Voids를 식별합니다. 우리는 명령어 튜닝된 LMs에서 레이어 활성화를 두 단계로 분석합니다: 프롬프트 처리(PP) 단계에서는 입력 프롬프트의 각 토큰에 대해 활성화된 레이어를 추적하고, 응답 생성(RG) 단계에서는 생성된 각 토큰에 대해 활성화된 레이어를 추적합니다. 우리는 더 나아가 이 두 단계에서 서로 다른 레이어가 활성화됨을 보여줍니다. 우리의 방법의 효과를 입증하기 위해, Llama, Mistral, Qwen 패밀리의 세 가지 명령어 튜닝된 LMs를 MMLU, GPQA Diamond, BoolQ 세 가지 벤치마크에서 평가했습니다. 예를 들어, MMLU에서 제로샷 설정으로 Qwen2.5-7B-Instruct의 Voids를 건너뛰었을 때, 모델이 레이어의 30%만 사용하면서도 점수가 69.24에서 71.29로 향상되었습니다. 마찬가지로, GPQA Diamond에서 Mistral-7B-Instruct-v0.3은 PP와 RG 단계에서 레이어의 70%를 사용할 때 점수가 13.88에서 18.36으로 향상되었습니다. 이러한 결과는 추론 과정에서 모든 레이어가 동등하게 기여하지 않으며, 대부분의 레이어를 선택적으로 건너뛰는 것이 특정 작업에서 모델의 성능을 향상시킬 수 있음을 보여줍니다.
검색 증강 생성(Retrieval Augmented Generation, RAG)의 잘 알려진 문제점 중 하나는 질의와 관련 없는 검색된 문단이 답변 생성용 대형 언어 모델(LLM)을 방해하여 잘못된 응답을 제공하게 만드는 경우가 있다는 것입니다. 본 논문에서는 이 핵심 문제를 조명하고, 질의(및 LLM)에 대한 문단의 방해 효과를 공식화합니다. 우리는 문단의 방해 효과를 정량적으로 측정할 수 있는 방법을 제시하고, 이를 다양한 LLM에 걸쳐 견고하게 입증합니다. 본 연구는 RAG 시스템을 개선하기 위해 강력한 방해 문단을 식별하고 활용하는 새로운 방법을 소개합니다. 이러한 신중하게 선별된 방해 문단으로 LLM을 미세 조정함으로써, 기존의 RAG 데이터셋으로 미세 조정된 모델 대비 최대 7.5%의 답변 정확도 향상을 달성했습니다. 우리의 기여는 두 가지입니다: 첫째, 관련 없는 문단을 단순히 완전히 무관한 것과 방해적인 것으로 이분법적으로 분류하는 것을 넘어섰으며, 둘째, 강력한 방해 문단을 찾기 위한 여러 방법을 개발하고 분석했습니다. 우리가 아는 한, 다른 연구에서는 강력한 방해 문단을 식별하고 활용하기 위한 이와 같은 포괄적인 프레임워크를 제공한 바 없습니다.
인간-로봇 상호작용(HRI)에 필수적인 구체화된 인지 능력의 핵심인 시각적 관점 수용(VPT)을 수행하기 위한 비전-언어 모델(VLM) 훈련을 위한 개념적 프레임워크를 제시한다. 이 목표를 향한 첫 단계로, NVIDIA Omniverse에서 생성된 합성 데이터셋을 소개하며, 이는 공간 추론 작업을 위한 지도 학습을 가능하게 한다. 각 인스턴스는 RGB 이미지, 자연어 설명, 그리고 객체 포즈를 나타내는 4X4 변환 행렬의 실측값을 포함한다. 우리는 Z축 거리 추론을 기본 기술로 중점적으로 다루며, 향후 확장을 통해 완전한 6자유도(DOFs) 추론을 목표로 한다. 이 데이터셋은 추가 연구를 지원하기 위해 공개적으로 제공된다. 본 연구는 상호작용적인 인간-로봇 시나리오에서 공간 이해가 가능한 구체화된 AI 시스템을 위한 기초 단계로 기능한다.
시각적 표현은 로봇 조작 정책의 학습 및 일반화 능력에 핵심적인 역할을 합니다. 기존 방법들은 전역적 또는 밀집된 특징에 의존하지만, 이러한 표현은 종종 작업 관련 정보와 무관한 장면 정보를 뒤섞어 분포 변화 하에서의 견고성을 제한합니다. 본 연구에서는 시각적 입력을 완성된 개체 집합으로 분할하여 조작 작업에 더 자연스럽게 부합하는 귀납적 편향을 도입하는 구조화된 대안으로서 객체 중심 표현(OCR)을 탐구합니다. 우리는 단순한 작업부터 복잡한 작업에 이르는 시뮬레이션 및 실제 조작 작업 세트에서 객체 중심, 전역적, 밀집 방법 등 다양한 시각적 인코더를 벤치마킹하고, 조명, 질감 변화 및 방해 요소 존재 등 다양한 시각적 조건 하에서의 일반화 성능을 평가합니다. 연구 결과, OCR 기반 정책은 작업별 사전 학습 없이도 일반화 설정에서 밀집 및 전역적 표현을 능가하는 것으로 나타났습니다. 이러한 통찰은 OCR이 동적이고 실제적인 로봇 환경에서 효과적으로 일반화되는 시각 시스템 설계를 위한 유망한 방향임을 시사합니다.