번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 상충하는 국가적 관점(미국, 영국, 소련, 중국)을 바탕으로 역사적 사건에 대한 해석을 분석함으로써 다양한 국가에 대한 LLM(대형 언어 모델)의 지리정치적 편향을 평가한다. 우리는 중립적인 사건 설명과 각국의 대조적인 관점을 포함한 새로운 데이터셋을 소개한다. 연구 결과, 모델들이 특정 국가의 서사를 선호하는 등 상당한 지리정치적 편향이 나타났다. 또한, 간단한 편향 제거 프롬프트는 이러한 편향을 줄이는 데 제한적인 효과만을 보였다. 조작된 참가자 레이블을 사용한 실험은 모델의 귀속 민감성을 드러냈으며, 특히 레이블이 교환된 경우 편향이 증폭되거나 불일치를 인식하는 경우가 있었다. 이 연구는 LLM의 국가 서사 편향을 강조하고, 간단한 편향 제거 방법의 효과에 의문을 제기하며, 향후 지리정치적 편향 연구를 위한 프레임워크와 데이터셋을 제공한다.
일반적인 대형 시각-언어 모델(LVLMs)은 텍스트 시퀀스에만 자동회귀적 지도를 적용하여 시각적 양상을 학습 과정에 완전히 통합하지 못한다. 이로 인해 세 가지 주요 한계가 발생한다: (1) 캡션이 없는 이미지를 활용할 수 없음, (2) 캡션이 중요한 시각적 세부 사항을 누락할 위험, (3) 특정 시각 중심 콘텐츠가 텍스트로 충분히 전달되지 못하는 문제. 결과적으로, 현재의 LVLMs는 시각-언어 정렬을 우선시하면서 세밀한 시각적 정보를 간과할 가능성이 있다. 기존 연구 중 일부는 자동회귀적 이미지 생성을 탐구했지만, 이미지 이해를 강화하기 위해 자동회귀적 시각적 지도를 효과적으로 활용하는 것은 여전히 해결되지 않은 과제로 남아 있다. 본 논문에서는 통합된 자동회귀 프레임워크 내에서 시각적 및 텍스트 양상을 함께 학습할 수 있는 자동회귀적 의미 시각 재구성(Autoregressive Semantic Visual Reconstruction, ASVR)을 소개한다. 우리는 이미지의 원시 시각적 외관을 자동회귀적으로 재구성하는 것이 다중모드 이해를 강화하지 못하고 오히려 저해할 수 있음을 보여준다. 반면, 이미지의 의미 표현을 자동회귀적으로 재구성하는 것은 일관되게 이해력을 향상시킨다. 특히, 모델이 연속적인 이미지 특징을 입력으로 받더라도 이산적인 의미 토큰을 효과적으로 재구성할 수 있으며, 이는 다양한 다중모드 이해 벤치마크에서 안정적이고 일관된 개선을 가져온다. 우리의 접근법은 다양한 데이터 규모(556k-2M)와 LLM 백본 유형에 걸쳐 상당한 성능 향상을 제공한다. 구체적으로, ASVR은 14개의 다중모드 벤치마크에서 LLaVA-1.5의 평균 점수를 5% 향상시킨다. 코드는 https://github.com/AlenjandroWang/ASVR에서 확인할 수 있다.
규칙 기반 추론은 추론의 근본적인 문제 중 하나로 인식되어 왔으며, 실제 애플리케이션에서 규칙 형식, 유형 및 복잡성의 편차는 심각한 도전 과제를 제기합니다. 최근 연구에 따르면 대규모 추론 모델(LRMs)은 뛰어난 추론 능력을 보여주며, 강화 학습(RL)을 통해 그 성능이 크게 향상됩니다. 그러나 소규모 추론 모델(SRMs)이 다양한 작업과 도메인에 걸쳐 견고한 일반화를 통해 규칙 기반 추론을 효과적으로 학습할 수 있는지 여부는 여전히 미해결된 질문입니다. 이를 해결하기 위해 우리는 Reinforced Rule-based Reasoning, 일명 RuleReasoner를 소개합니다. 이는 다양한 큐레이팅된 작업과 새로운 도메인 인식 동적 샘플링 접근법을 통해 규칙 기반 추론을 수행하는 간단하지만 효과적인 방법입니다. 구체적으로, RuleReasoner는 역사적 보상을 기반으로 다양한 도메인의 샘플링 가중치를 업데이트하여 각 훈련 배치를 재샘플링합니다. 이는 도메인 증강과 RL을 위한 유연한 온라인 학습 스케줄을 촉진하며, 기존 방법에서 사용된 사전에 인간이 설계한 혼합 훈련 레시피의 필요성을 없앱니다. 인-분포(ID) 및 아웃-오브-분포(OOD) 벤치마크에 대한 실험적 평가는 RuleReasoner가 최첨단 LRMs을 상당한 차이로 능가함을 보여줍니다(8개의 ID 작업에서 평균 4.1% 포인트, 3개의 OOD 작업에서 OpenAI-o1 대비 평균 10.4% 포인트). 특히, 우리의 접근법은 이전의 RL 동적 샘플링 방법에 비해 더 높은 계산 효율성을 보여줍니다.
프로페셔널 영화 제작부터 사용자 생성 콘텐츠에 이르기까지, 창작자와 소비자들은 오랫동안 비디오의 힘이 우리가 듣는 것(비디오의 오디오 트랙)과 우리가 보는 것(비디오의 이미지 시퀀스)의 조화로운 통합에 달려 있다는 것을 인식해 왔습니다. 현재의 비디오 생성 접근법은 일반적인 목적의 무음 이미지 시퀀스 생성에 초점을 맞추기 위해 소리를 무시하거나, 시각적 요소와 오디오 요소를 모두 다루지만 리더빙과 같은 제한된 응용 분야에 집중합니다. 우리는 오디오 입력을 기반으로 현실적이고 표현력 있는 출력 이미지를 처음부터 생성하는 데 탁월한 오디오-투-비디오 기반 모델인 Mirage를 소개합니다. Mirage는 음성 합성(텍스트-투-스피치, TTS)을 위한 기존 방법과 통합될 때 매력적인 멀티모달 비디오를 생성합니다. 사람들이 말하는 오디오-비디오 푸티지(A-롤)로 훈련되고 음성이 포함된 오디오를 조건으로 할 때, Mirage는 입력 오디오에 내재된 퍼포먼스를 믿을 만하게 해석하는 사람들의 비디오를 생성합니다. 우리의 핵심 기술적 기여는 처음부터 또는 기존 가중치를 기반으로 자기 주의 기반 오디오-투-비디오 생성 모델을 훈련하기 위한 통합 방법입니다. 이 방법론은 Mirage가 오디오-투-비디오 생성 접근법으로서의 일반성을 유지하면서도, 오디오 특화 아키텍처나 사람, 음성, 이미지 또는 오디오 캡처 방식의 세부 사항에 특화된 손실 구성 요소를 통합한 방법들보다 우수한 주관적 품질의 출력을 생성할 수 있게 합니다. 독자들이 Mirage의 결과를 직접 보고 들을 것을 권장합니다(논문과 댓글에서 링크 참조).
확산 모델의 발전으로 비디오 품질이 크게 향상되면서, 세밀한 제어 가능성에 대한 관심이 집중되고 있다. 그러나 기존의 많은 방법들은 특정 작업을 위해 대규모 비디오 모델을 미세 조정하는 데 의존하고 있으며, 이는 모델 크기가 계속 증가함에 따라 점점 더 비현실적이 되고 있다. 본 연구에서는 키프레임, 스타일 참조 이미지, 스케치, 깊이 맵과 같은 프레임 수준 신호를 기반으로 한 학습 없이도 제어 가능한 비디오 생성을 위한 Frame Guidance를 제안한다. 실용적인 학습 없는 가이던스를 위해, 메모리 사용량을 극적으로 줄이는 간단한 잠재 처리 방법을 제안하고, 전역적으로 일관된 비디오 생성을 위해 설계된 새로운 잠재 최적화 전략을 적용한다. Frame Guidance는 키프레임 가이던스, 스타일화, 루핑 등 다양한 작업에 걸쳐 효과적인 제어를 가능하게 하며, 어떠한 학습도 필요 없이 모든 비디오 모델과 호환된다. 실험 결과는 Frame Guidance가 다양한 작업과 입력 신호에 대해 고품질의 제어된 비디오를 생성할 수 있음을 보여준다.
3차원 공간에서 작동하는 로봇과 3D 환경을 구축 및 편집하는 디자이너를 지원하기 위해서는 3D로 세계를 이해할 수 있는 기계를 만드는 것이 필수적입니다. 언어 및 이미지 모델링의 발전에서 영감을 받아, 우리는 새로운 모달리티인 구조화된 3D 장면에 대한 자기회귀 모델의 잠재력을 탐구합니다. 이를 위해, 우리는 언어, 이미지, 3D 장면을 정렬하는 통합 LLM 프레임워크를 제안하고, 데이터 표현, 모달리티별 목표 등과 관련된 핵심 질문을 해결하기 위한 최적의 훈련 및 성능을 달성하기 위한 중요한 설계 선택을 상세히 설명한 '쿡북'을 제공합니다. 우리는 렌더링, 인식, 지시 따르기, 질문 응답이라는 네 가지 핵심 3D 작업과 합성 및 실제 세계의 네 가지 3D 데이터셋에 걸쳐 성능을 평가합니다. 우리는 양자화된 형태 인코딩을 통해 3D 모달리티를 풍부하게 하여 복잡한 3D 객체 형태를 재구성하는 접근 방식을 확장하고, 실제 세계의 3D 객체 인식 작업에서 우리 모델의 효과를 보여줍니다. 프로젝트 웹페이지: https://glab-caltech.github.io/kyvo/
우리는 자기회귀 비디오 확산 모델을 위한 새로운 훈련 패러다임인 Self Forcing을 소개합니다. 이 방법은 모델이 훈련 시에는 실제 컨텍스트를 기반으로 학습하지만, 추론 시에는 자신의 불완전한 출력을 조건으로 시퀀스를 생성해야 하는 노출 편향(exposure bias) 문제를 해결합니다. 기존 방법들이 실제 컨텍스트 프레임을 기반으로 미래 프레임을 노이즈 제거하는 것과 달리, Self Forcing은 훈련 중 키-값(KV) 캐싱을 통해 자기회귀 롤아웃을 수행함으로써 각 프레임의 생성을 이전에 자체 생성된 출력에 조건화합니다. 이 전략은 전통적인 프레임 단위 목적 함수에만 의존하는 대신, 생성된 전체 시퀀스의 품질을 직접 평가하는 비디오 수준의 종합적 손실을 통해 지도 학습을 가능하게 합니다. 훈련 효율성을 보장하기 위해, 우리는 몇 단계의 확산 모델과 확률적 그래디언트 절단 전략을 사용하여 계산 비용과 성능 간의 균형을 효과적으로 유지합니다. 또한, 효율적인 자기회귀 비디오 외삽을 가능하게 하는 롤링 KV 캐시 메커니즘을 도입합니다. 광범위한 실험을 통해 우리의 접근 방식이 단일 GPU에서 초당 미만의 지연 시간으로 실시간 스트리밍 비디오 생성을 달성하면서, 훨씬 느리고 비인과적인 확산 모델의 생성 품질을 맞추거나 심지어 능가함을 입증했습니다. 프로젝트 웹사이트: http://self-forcing.github.io/
불평등 증명은 다양한 과학 및 수학 분야에서 중요한 역할을 하며, 엄밀한 경계를 발견하고 전략적으로 정리를 적용하는 등 고급 추론 능력을 시험합니다. 이는 대규모 언어 모델(LLM)에게 일반적인 수학 문제 해결을 넘어선 통찰력을 제공하는 독특하고 까다로운 분야로 자리 잡고 있습니다. 그러나 이 분야의 발전은 기존 데이터셋이 부족하거나 합성적이며, 지나치게 형식적인 경우가 많아 저해받고 있습니다. 우리는 이를 해결하기 위해 비공식적이지만 검증 가능한 과제 구성을 제안하며, 불평등 증명을 자동으로 검사 가능한 두 가지 하위 과제인 경계 추정과 관계 예측으로 재구성합니다. 이를 바탕으로, 우리는 올림피아드 수준의 불평등 문제를 전문가가 선별한 IneqMath 데이터셋을 공개합니다. 이 데이터셋은 테스트 세트와 단계별 해결 방법 및 정리 주석이 포함된 훈련 코퍼스를 포함하고 있습니다. 또한, 우리는 최종 답안 판단자와 일반적인 추론 오류를 탐지하도록 설계된 네 명의 단계별 판단자를 결합한 새로운 LLM-as-judge 평가 프레임워크를 개발했습니다. IneqMath에서 29개의 주요 LLM을 체계적으로 평가한 결과, 놀라운 현실이 드러났습니다: o1과 같은 최상위 모델조차 단계별 검토에서 10% 미만의 전반적인 정확도를 보였으며, 이는 최종 답안 동등성만 고려했을 때의 정확도에서 최대 65.5% 하락한 수치입니다. 이러한 차이는 취약한 연역적 사슬과 현재 LLM이 단순히 답을 찾는 것과 엄밀한 증명을 구성하는 사이에 존재하는 중요한 격차를 드러냅니다. 모델 크기를 확장하고 테스트 시 계산량을 늘리는 것은 전반적인 증명 정확도에 있어 제한된 개선만을 가져옵니다. 대신, 우리의 연구 결과는 정리 기반 추론과 자기 정제와 같은 유망한 연구 방향을 강조합니다. 코드와 데이터는 https://ineqmath.github.io/에서 확인할 수 있습니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 그래픽 사용자 인터페이스(GUI) 자동화를 포함한 멀티모달 추론 작업에 광범위하게 활용되고 있습니다. 일반적인 오프라인 멀티모달 작업과 달리, GUI 자동화는 온라인 상호작용 환경에서 실행되며, 환경의 실시간 상태를 기반으로 단계별 의사결정이 필요합니다. 이 작업은 각 단계에서 의사결정 오류에 대한 허용 범위가 낮으며, 어떤 실수라도 누적되어 프로세스를 방해하고 삭제나 결제와 같은 되돌릴 수 없는 결과를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 실제 실행 전에 잠재적인 결과와 행동의 정확성을 추론하여 효과적인 피드백을 제공하는 사전 실행 비평 메커니즘을 도입했습니다. 구체적으로, 우리는 Suggestion-aware Gradient Relative Policy Optimization(S-GRPO) 전략을 제안하여 사전 실행 비평 모델 GUI-Critic-R1을 구축하고, 모델의 피드백 신뢰성을 향상시키기 위한 새로운 제안 보상을 통합했습니다. 또한, 우리는 GUI 비평 데이터의 기존 격차를 메우기 위해 추론-부트스트래핑 기반 데이터 수집 파이프라인을 개발하여 GUI-Critic-Train과 GUI-Critic-Test를 생성했습니다. 모바일 및 웹 도메인에서 GUI-Critic-Test에 대한 정적 실험은 우리의 GUI-Critic-R1이 현재의 MLLMs에 비해 비평 정확도에서 상당한 이점을 제공한다는 것을 보여줍니다. GUI 자동화 벤치마크에 대한 동적 평가는 우리 모델의 효과성과 우수성을 입증하며, 개선된 성공률과 운영 효율성으로 그 성과를 입증했습니다.
우리는 기존에 사전 학습된 3D 생성 모델로부터 학습된 암묵적 사전 지식을 활용하여 극도로 높은 압축률로 3D 데이터를 압축하는 새로운 프레임워크인 Squeeze3D를 제안한다. 우리의 접근 방식은 사전 학습된 인코더와 사전 학습된 생성 모델 간의 잠재 공간을 학습 가능한 매핑 네트워크를 통해 연결한다. 메시, 포인트 클라우드 또는 방사장으로 표현된 모든 3D 모델은 먼저 사전 학습된 인코더에 의해 인코딩된 후, 매우 간결한 잠재 코드로 변환(즉, 압축)된다. 이 잠재 코드는 메시나 포인트 클라우드의 극도로 압축된 표현으로 효과적으로 사용될 수 있다. 매핑 네트워크는 압축된 잠재 코드를 강력한 생성 모델의 잠재 공간으로 변환하며, 이는 원본 3D 모델을 재생성(즉, 압축 해제)하도록 조건화된다. Squeeze3D는 생성된 합성 데이터로만 학습되며, 어떠한 3D 데이터셋도 필요로 하지 않는다. Squeeze3D 아키텍처는 기존에 사전 학습된 3D 인코더와 생성 모델과 유연하게 사용될 수 있다. 또한 메시, 포인트 클라우드, 방사장 등 다양한 형식을 유연하게 지원한다. 우리의 실험 결과, Squeeze3D는 텍스처가 적용된 메시의 경우 최대 2187배, 포인트 클라우드의 경우 55배, 방사장의 경우 619배의 압축률을 달성하면서도 기존의 많은 방법들과 비슷한 수준의 시각적 품질을 유지한다. Squeeze3D는 객체별 네트워크를 학습하여 객체를 압축하는 과정을 포함하지 않기 때문에 압축 및 압축 해제 지연 시간이 매우 작다.
대규모 언어 모델(LLMs)은 외부 문서를 활용한 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 통해 개방형 질의응답(Open-Domain Question Answering, ODQA)에서 뛰어난 성능을 보여왔다. RAG의 오버헤드를 줄이기 위해, 더 긴 문맥에서 문맥 압축이 필요하다. 그러나 기존의 압축 방법들은 비증거적 정보를 걸러내는 데 초점을 맞추지 않아 LLM 기반 RAG의 성능을 제한한다. 이에 우리는 증거성 기반 RAG, 즉 ECoRAG 프레임워크를 제안한다. ECoRAG는 검색된 문서를 증거성에 기반하여 압축함으로써 답변 생성이 올바른 증거에 의해 지원되는지 확인하며 LLM 성능을 향상시킨다. 추가 단계로, ECoRAG는 압축된 내용이 충분한 증거를 제공하는지 반영하고, 그렇지 않은 경우 충분한 증거가 확보될 때까지 더 많은 문서를 검색한다. 실험 결과, ECoRAG는 ODQA 작업에서 LLM 성능을 향상시키며 기존의 압축 방법들을 능가하는 것으로 나타났다. 또한 ECoRAG는 지연 시간을 줄일 뿐만 아니라 올바른 답변을 생성하는 데 필요한 정보만을 유지함으로써 토큰 사용을 최소화하여 매우 비용 효율적이다. 코드는 https://github.com/ldilab/ECoRAG에서 확인할 수 있다.
검색 증강 생성(Retrieval Augmented Generation, RAG)은 대규모 언어 모델(LLM)에 관련성 있고 최신 정보를 제공하기 위해 널리 사용되는 접근법입니다. 그러나 검색된 소스들은 종종 상충되는 정보를 포함하고 있으며, 모델이 이러한 불일치를 어떻게 처리해야 하는지는 여전히 명확하지 않습니다. 본 연구에서는 먼저 RAG에서 발생하는 지식 충돌 유형에 대한 새로운 분류 체계와 각 유형에 대한 모델의 바람직한 행동을 제안합니다. 이어서, 현실적인 RAG 설정에서 전문가가 주석을 단 충돌 유형을 포함한 고품질 벤치마크인 CONFLICTS를 소개합니다. CONFLICTS는 모델이 다양한 지식 충돌을 어떻게 처리하는지에 대한 진전을 추적할 수 있는 최초의 벤치마크입니다. 이 벤치마크를 통해 광범위한 실험을 수행한 결과, LLM이 소스 간의 충돌을 적절히 해결하는 데 종종 어려움을 겪는 것으로 나타났습니다. 검색된 문서에서 잠재적 충돌에 대해 명시적으로 추론하도록 LLM을 프롬프팅하면 응답의 질과 적절성이 크게 향상되지만, 향후 연구에서 개선할 여지가 여전히 상당합니다.
이미지 생성 기술의 급속한 발전은 해석 가능하고 견고한 탐지 방법에 대한 수요를 더욱 증대시키고 있습니다. 기존 접근법들은 높은 정확도를 달성하는 경우가 많지만, 일반적으로 인간이 이해할 수 있는 근거를 제공하지 않는 블랙박스 형태로 작동합니다. 다중 모달 대형 언어 모델(MLLMs)은 원래 위조 탐지를 위해 설계된 것은 아니지만, 강력한 분석 및 추론 능력을 보여줍니다. 적절하게 미세 조정될 경우, 이 모델들은 AI 생성 이미지를 효과적으로 식별하고 의미 있는 설명을 제공할 수 있습니다. 그러나 기존 MLLMs는 여전히 환각(hallucination) 문제를 겪으며, 시각적 해석을 실제 이미지 내용과 인간의 추론에 맞추는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 합성 아티팩트를 강조하는 바운딩 박스와 설명 캡션이 포함된 AI 생성 이미지 데이터셋을 구축하여 인간과 일치하는 시각-텍스트 기반 추론의 기반을 마련했습니다. 그런 다음, 정확한 탐지, 시각적 위치 지정, 일관된 텍스트 설명이라는 목표를 점진적으로 균형 있게 조정하는 다단계 최적화 전략을 통해 MLLMs를 미세 조정했습니다. 결과적으로 얻은 모델은 AI 생성 이미지를 탐지하고 시각적 결함을 위치 지정하는 데 있어서 우수한 성능을 달성하며, 기준선 방법들을 크게 능가합니다.
현재의 테스트 시간 스케일링 패러다임은 응답을 생성하기 전에 긴 추론 흔적("생각"을 더 많이 하는 것)을 생성하는 데 의존합니다. 상호작용이 필요한 에이전트 문제에서는 세계에서 행동하기 전에 생각 흔적을 생성함으로써 이를 수행할 수 있습니다. 그러나 이 과정은 에이전트가 환경으로부터 새로운 정보를 획득하거나 시간이 지남에 따라 행동을 적응시킬 수 있도록 허용하지 않습니다. 본 연구에서는 테스트 시간 상호작용을 스케일링하는 것을 제안합니다. 이는 테스트 시간 스케일링의 미개척된 차원으로, 에이전트의 상호작용 지평을 확장하여 단일 롤아웃 내에서 탐색, 역추적, 동적 재계획과 같은 풍부한 행동을 실행할 수 있도록 합니다. 이 스케일링 차원의 잠재력을 입증하기 위해 웹 에이전트 도메인을 연구합니다. 먼저, 어떠한 훈련도 없이 프롬프트 기반 상호작용 스케일링만으로도 웹 벤치마크에서 작업 성공률을 비약적으로 향상시킬 수 있음을 보여줍니다. 이를 바탕으로, TTI(Test-Time Interaction)를 소개합니다. TTI는 커리큘럼 기반 온라인 강화 학습(RL) 접근법으로, 에이전트의 롤아웃 길이를 적응적으로 조정하여 훈련합니다. Gemma 3 12B 모델을 사용하여, TTI는 WebVoyager 및 WebArena 벤치마크에서 최첨단 오픈소스, 오픈데이터 웹 에이전트를 생성합니다. 또한, TTI가 에이전트가 탐색과 활용을 적응적으로 균형 있게 수행할 수 있도록 한다는 것을 추가로 보여줍니다. 우리의 결과는 상호작용 스케일링이 단계별 계산 스케일링에 대한 강력하고 보완적인 축으로서, 적응형 에이전트 훈련을 위한 새로운 길을 제시함을 입증합니다.
대형 언어 모델(LLMs)은 의미 있는 상관관계와 예측을 생성하기 위해 데이터를 사용하여 세상에 대해 학습합니다. 따라서 이러한 모델을 훈련하거나 추론 시 작업을 지원하는 데 사용되는 데이터셋의 성격, 규모, 품질 및 다양성은 모델의 품질에 직접적인 영향을 미칩니다. 다양한 품질의 LLM의 급속한 개발과 채택은 공개적으로 이용 가능한 고품질 훈련 데이터의 부족을 부각시켰으며, 이러한 데이터셋의 관리를 명확한 출처 체인을 갖춘 지속 가능한 관행에 기반을 두는 것이 시급하다는 점을 드러냈습니다. 이를 위해 본 기술 보고서는 2006년부터 하버드 도서관이 참여한 구글 도서 프로젝트를 통해 원본 디지털화된 공개 도메인 도서의 대규모 컬렉션인 Institutional Books 1.0을 소개합니다. 하버드 도서관과 협력하여 우리는 이러한 도서를 추출, 분석, 처리하여 역사적 텍스트의 광범위하게 문서화된 데이터셋으로 구성했습니다. 이 분석은 해당 프로젝트의 일환으로 스캔된 하버드 도서관 컬렉션 전체를 다루며, 원래 250개 이상의 언어로 작성된 1,075,899권의 도서로 총 약 2,500억 개의 토큰으로 구성되었습니다. 이 초기 릴리스의 일환으로, 공개 도메인으로 확인된 983,004권의 도서(242B 토큰)에 대한 OCR 추출 텍스트(원본 및 후처리)와 메타데이터(서지, 출처 및 생성)가 공개되었습니다. 본 보고서는 이 프로젝트의 목표와 방법, 그리고 수행한 분석 결과를 설명하며, 이 역사적 컬렉션을 인간과 기계 모두가 더 쉽게 접근하고 필터링, 읽기, 사용할 수 있도록 하는 데 기여합니다.
이미지-텍스트 사전 학습 모델인 CLIP을 비디오-텍스트 검색에 효율적으로 적용하는 것은 중요한 연구 분야이다. CLIP은 이미지 수준의 시각-언어 매칭에 초점을 맞추고 있지만, 비디오-텍스트 검색은 비디오 수준의 포괄적인 이해를 요구한다. 이미지 수준에서 비디오 수준으로 전이할 때 시각, 언어, 정렬이라는 세 가지 주요 차이가 발생한다. 그러나 기존 방법들은 주로 시각에 초점을 맞추고 언어와 정렬을 소홀히 했다. 본 논문에서는 시각, 언어, 정렬의 차이를 동시에 완화하는 Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA)를 제안한다. 구체적으로, 이미지 수준과 비디오 수준의 특징을 통합하기 위해 Image-Video Features Fusion을 도입하여 시각과 언어의 차이를 효과적으로 해결한다. 또한, 세밀한 이미지 수준 정렬을 학습하기 위해 가짜 이미지 캡션을 생성한다. 정렬 차이를 완화하기 위해 이미지 수준 정렬 지식을 활용하여 비디오 수준 정렬을 강화하는 Image-to-Video Alignment Distillation을 제안한다. 광범위한 실험을 통해 DiscoVLA의 우수성을 입증하였다. 특히, CLIP (ViT-B/16)을 사용한 MSRVTT에서 DiscoVLA는 이전 방법들보다 R@1에서 1.5% 우수한 성능을 보이며 최종 점수 50.5% R@1을 달성했다. 코드는 https://github.com/LunarShen/DsicoVLA에서 확인할 수 있다.
최근 연구들은 대규모 언어 모델(LLM) 응용 분야에서 매개변수 효율적 미세 조정(PEFT) 방법의 성능을 더욱 향상시키기 위해 저순위 적응(LoRA)과 전문가 혼합(MoE)을 통합하고 있다. 기존 방법들은 유사하거나 동일한 구조와 용량을 가진 LoRA 전문가들로 구성된 동종 MoE-LoRA 아키텍처를 사용한다. 그러나 이러한 접근 방식은 표현 붕괴와 전문가 부하 불균형 문제를 자주 겪으며, 이는 LLM의 잠재력에 부정적인 영향을 미친다. 이러한 문제를 해결하기 위해, 우리는 이종 전문가 혼합(MoA) 접근 방식을 제안한다. 이 방법은 다양한 구조를 가진 PEFT 어댑터 전문가들을 동적으로 통합하여, 이들의 상호 보완적 표현 능력을 활용함으로써 전문가 특화를 촉진하고, 사전 학습된 지식을 다운스트림 작업으로 효과적으로 전이한다. MoA는 두 가지 변형을 지원한다: (i) 소프트 MoA는 모든 전문가 출력의 가중치 융합을 통해 세밀한 통합을 달성하고, (ii) 스파스 MoA는 전문가들의 기여도에 따라 어댑터 전문가를 희소하게 활성화하여 성능 저하를 최소화한다. 실험 결과는 이종 MoA가 동종 MoE-LoRA 방법들보다 성능과 매개변수 효율성 모두에서 우수함을 보여준다. 우리의 프로젝트는 https://github.com/DCDmllm/MoA에서 확인할 수 있다.
대규모 언어 모델(LLM)의 최근 발전은 금융 애플리케이션에 큰 가능성을 열어주지만, 디지털 규제 보고(DRR)에서 정확성과 규제 준수 측면에서 중요한 과제를 제기합니다. 이러한 문제를 해결하기 위해, 우리는 XBRL, CDM, MOF의 도메인 지식으로 미세 조정된 Fino1 기반의 규제 지식 강화 금융 추론 모델인 RKEFino1을 제안합니다. 우리는 지식 기반 및 수학적 추론이라는 두 가지 QA 과제를 정의하고, 문장과 테이블 내 금융 개체를 포괄하는 새로운 Numerical NER 과제를 도입했습니다. 실험 결과는 RKEFino1이 규제 준수가 중요한 금융 과제에서 효과적이고 일반화 능력이 뛰어남을 보여줍니다. 우리는 이 모델을 Hugging Face에 공개했습니다.
본 논문은 멀티모달 대형 언어 모델(MLLMs)의 오류 정제 능력을 평가하기 위해 설계된 MMRefine(MultiModal Refinement) 벤치마크를 소개합니다. 추론 과정에서의 추론 능력 강조가 중요해짐에 따라, MMRefine은 단순히 정제 전후의 최종 정확도를 비교하는 것을 넘어, 6가지 서로 다른 시나리오에서 MLLMs의 오류 탐지 및 수정 능력을 평가하는 프레임워크를 제공합니다. 또한, 이 벤치마크는 오류를 6가지 유형으로 분류하여 정제 성능을 분석합니다. 다양한 오픈 및 클로즈드 MLLMs를 대상으로 한 실험을 통해 정제 성능을 저해하는 병목 현상과 요인들을 밝혀내고, 효과적인 추론 강화를 위한 개선 방향을 제시합니다. 저희의 코드와 데이터셋은 https://github.com/naver-ai/MMRefine에서 공개되어 있습니다.
최근 대규모 언어 모델의 발전은 형식적 추론에 대한 강력한 가능성을 보여주고 있다. 그러나 대부분의 LLM 기반 정리 증명기는 전문가가 작성한 형식적 명제를 입력으로 필요로 한다는 제약으로 인해, 자연어로 표현된 실제 문제에 대한 적용 가능성이 제한되어 왔다. 우리는 이러한 격차를 해결하기 위해 비형식적 문제 명제를 처리하는 최초의 종단 간 정리 증명 파이프라인인 Mathesis를 제안한다. Mathesis는 자연어 문제의 형식화 능력을 강화하기 위해 강화 학습을 활용한 최초의 자동 형식화 도구인 Mathesis-Autoformalizer를 포함하며, 이를 위해 세밀한 형식화 품질 평가를 위한 새로운 LeanScorer 프레임워크를 개발하였다. 또한 Mathesis-Prover를 제안하여 형식화된 명제로부터 형식적 증명을 생성한다. 종단 간 형식적 정리 증명의 실제 적용 가능성을 평가하기 위해, 중국의 대학 입학 시험에서 추출한 488개의 복잡한 문제로 구성된 Gaokao-Formal 벤치마크를 소개한다. 우리의 접근 방식은 각 구성 요소에 대한 철저한 연구를 통해 신중하게 설계되었다. 실험 결과, Mathesis의 효과가 입증되었으며, 자동 형식화 도구는 Gaokao-Formal에서 최고의 기준선 대비 22% 높은 통과율을 보였다. 전체 시스템은 다른 모델 조합을 능가하며, MiniF2F에서 pass@32 기준 64%의 정확도를 달성하고 Gaokao-Formal에서 최첨단 수준인 18%의 성능을 보였다.
리뷰 기반 제품 질문 응답(Product Question Answering, PQA)은 전자상거래 플랫폼이 사용자 리뷰에서 얻은 통찰을 활용해 고객 문의를 자동으로 처리할 수 있게 합니다. 그러나 기존 PQA 시스템은 단일 관점에서만 답변을 생성하여 다양한 고객 의견을 포착하지 못하는 한계가 있습니다. 본 논문에서는 다양한 고객 의견을 대표적인 핵심 포인트(Key Points, KPs)로 요약하고 그 보편성을 정량화하여 사용자 질문에 효과적으로 답변하는 새로운 과제인 정량적 질문 중심 요약(Quantitative Query-Focused Summarization, QQSUM)을 소개합니다. 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 PQA에 유망한 접근법이지만, 생성된 답변은 여전히 다양한 관점을 충분히 반영하지 못합니다. 이를 해결하기 위해, 우리는 RAG를 확장한 QQSUM-RAG 모델을 제안합니다. 이 모델은 소수 샷 학습(few-shot learning)을 통해 KP 중심 검색기와 KP 요약 생성기를 공동으로 학습시켜, 다양하고 대표적인 의견을 반영한 KP 기반 요약을 가능하게 합니다. 실험 결과는 QQSUM-RAG가 텍스트 품질과 의견 정량화 정확도 모두에서 최신 RAG 기준 모델을 능가하는 우수한 성능을 달성함을 보여줍니다. 소스 코드는 https://github.com/antangrocket1312/QQSUMM에서 확인할 수 있습니다.