번역이 포함된 일일 선별된 AI 연구 논문
우리는 AI 연구 과제에서 LLM 에이전트를 평가하고 개발하기 위한 새로운 프레임워크 및 벤치마크인 Meta MLGym과 MLGym-Bench를 소개합니다. 이는 머신러닝(ML) 과제를 위한 최초의 Gym 환경으로, 이러한 에이전트를 훈련하기 위한 강화학습(RL) 알고리즘 연구를 가능하게 합니다. MLGym-Bench는 컴퓨터 비전, 자연어 처리, 강화학습, 게임 이론 등 다양한 분야에서 선별된 13개의 다양하고 개방형 AI 연구 과제로 구성됩니다. 이러한 과제를 해결하기 위해서는 새로운 아이디어와 가설 생성, 데이터 생성 및 처리, ML 방법 구현, 모델 훈련, 실험 실행, 결과 분석, 그리고 주어진 과제를 개선하기 위한 반복적 과정과 같은 실제 AI 연구 기술이 요구됩니다. 우리는 Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, Gemini-1.5 Pro 등 여러 최첨단 대형 언어 모델(LLM)을 벤치마크에서 평가했습니다. MLGym 프레임워크는 새로운 과제 추가, 모델 또는 에이전트 통합 및 평가, 대규모 합성 데이터 생성, 그리고 AI 연구 과제에서 에이전트를 훈련하기 위한 새로운 학습 알고리즘 개발을 용이하게 합니다. 우리는 현재의 최첨단 모델들이 주어진 기준선을 개선할 수 있지만, 이는 주로 더 나은 하이퍼파라미터를 찾는 데 그치며, 새로운 가설, 알고리즘, 아키텍처 또는 상당한 개선을 생성하지는 못한다는 것을 발견했습니다. 우리는 LLM 에이전트의 AI 연구 역량을 발전시키기 위한 미래 연구를 촉진하기 위해 이 프레임워크와 벤치마크를 오픈소스로 공개합니다.
우리는 원래의 SigLIP의 성공을 기반으로 한 새로운 다국어 비전-언어 인코더인 SigLIP 2 시리즈를 소개합니다. 이 두 번째 버전에서는 원래의 이미지-텍스트 학습 목표를 여러 독립적으로 개발된 기법들과 통합하여 하나의 통합된 레시피로 확장했습니다. 여기에는 캡션 기반 사전 학습, 자기 지도 손실(자기 증류, 마스크 예측) 및 온라인 데이터 큐레이션이 포함됩니다. 이러한 변경을 통해 SigLIP 2 모델은 제로샷 분류, 이미지-텍스트 검색, 그리고 비전-언어 모델(VLMs)을 위한 시각적 표현 추출 시 전이 성능 등 핵심 능력에서 모든 모델 규모에서 SigLIP 모델을 능가합니다. 또한, 새로운 학습 레시피는 지역화 및 밀집 예측 작업에서도 상당한 개선을 이끌어냅니다. 우리는 여러 해상도를 지원하고 입력의 원래 종횡비를 유지하는 변형 모델도 학습했습니다. 마지막으로, 편향 제거 기법을 포함한 더 다양한 데이터 혼합을 사용하여 학습함으로써 다국어 이해 능력과 공정성이 크게 향상되었습니다. 사용자가 추론 비용과 성능 간의 균형을 맞출 수 있도록, 우리는 ViT-B(86M), L(303M), So400m(400M), 그리고 g(1B)의 네 가지 크기의 모델 체크포인트를 공개합니다.
대형 언어 모델(LLM)은 수학, 물리학, 컴퓨터 과학과 같은 주류 학문 분야에서 뛰어난 능력을 보여왔습니다. 그러나 인간의 지식은 200개가 넘는 전문 분야를 포괄하며, 이는 기존 벤치마크의 범위를 훨씬 초과합니다. 특히 경공업, 농업, 서비스 지향 분야를 포함한 많은 전문 분야에서 LLM의 능력은 아직 충분히 평가되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 285개 학문 분야에 걸친 대학원 수준의 지식과 추론 능력을 평가하는 포괄적인 벤치마크인 SuperGPQA를 제안합니다. 우리의 벤치마크는 LLM 응답과 전문가 피드백을 기반으로 반복적인 개선을 통해 사소하거나 모호한 질문을 제거하는 새로운 인간-LLM 협업 필터링 메커니즘을 사용합니다. 실험 결과, 다양한 지식 영역에서 최첨단 LLM의 성능이 개선될 여지가 크다는 것을 보여주었습니다(예: 추론 중심 모델인 DeepSeek-R1은 SuperGPQA에서 61.82%의 최고 정확도를 달성). 이는 현재 모델의 능력과 인공 일반 지능(AGI) 사이의 상당한 격차를 강조합니다. 또한, 우리는 80명 이상의 전문가 주석자와 인간-LLM 협업 시스템을 포함한 대규모 주석 프로세스 관리에서 얻은 포괄적인 통찰을 제시하며, 향후 유사한 규모의 연구 프로젝트에 대한 귀중한 방법론적 지침을 제공합니다.
대규모 언어 모델(LLM)의 성능은 사전 학습 과정에서 습득하고 모델 파라미터에 저장된 지식에 크게 제한됩니다. 저랭크 적응(LoRA)은 LLM을 업데이트하거나 특정 도메인에 맞게 적응시키기 위해 널리 사용되는 효율적인 학습 기법입니다. 본 연구에서는 LoRA를 사용하여 기존에 학습된 지식을 손상시키지 않으면서 새로운 사실을 LLM에 통합하는 방법을 탐구합니다. 우리는 다양한 양의 새로운 지식을 포함한 데이터로 Llama-3.1-8B-instruct 모델을 LoRA를 통해 미세 조정했습니다. 실험 결과, 학습 데이터에 알려진 사실과 새로운 사실이 혼합되어 있을 때 가장 좋은 결과를 얻을 수 있음을 확인했습니다. 그러나 이러한 접근 방식은 여전히 잠재적으로 해로울 수 있는데, 외부 질의응답 벤치마크에서 모델의 성능이 미세 조정 후 저하되기 때문입니다. 학습 데이터가 특정 개체에 치우쳐 있을 경우, 모델은 과도하게 표현된 몇 가지 답변으로 회귀하는 경향을 보였습니다. 또한, 모델이 더 자신감을 갖게 되고 극히 드문 경우에만 답변을 거부한다는 사실도 발견했습니다. 이러한 결과는 LoRA 기반 LLM 업데이트의 잠재적 함정을 강조하며, 새로운 지식 통합과 일반적인 모델 능력 간의 균형을 맞추기 위한 학습 데이터 구성 및 조정 파라미터의 중요성을 부각시킵니다.
LLM(대형 언어 모델)의 테스트 시간 계산량 증가는 다양한 영역에서 유망한 결과를 보여주고 있지만, 수학 분야에서의 광범위한 연구와 달리 코드 생성 분야에서는 아직 충분히 탐구되지 않고 있습니다. 본 논문에서는 생성된 코드의 커버리지와 선택 정확도를 크게 향상시키는 최초의 하이브리드 테스트 시간 스케일링 프레임워크인 S*를 제안합니다. S*는 기존의 병렬 스케일링 패러다임을 순차적 스케일링으로 확장하여 성능 한계를 더욱 끌어올립니다. 또한, 적응적으로 구별 입력을 생성하여 쌍별 비교를 수행하는 새로운 선택 메커니즘과 실행 기반 정보를 결합하여 정확한 솔루션을 강력하게 식별합니다. 우리는 12개의 대형 언어 모델과 대형 추론 모델을 대상으로 평가를 진행했으며, 다음과 같은 결과를 확인했습니다: (1) S*는 모델 계열과 크기에 관계없이 일관되게 성능을 향상시켜, 3B 모델이 GPT-4o-mini를 능가할 수 있도록 합니다; (2) S*는 비추론 모델이 추론 모델을 능가할 수 있게 합니다 - S*를 적용한 GPT-4o-mini는 LiveCodeBench에서 o1-preview를 3.7% 앞섭니다; (3) S*는 최첨단 추론 모델의 성능을 더욱 끌어올립니다 - S*를 적용한 DeepSeek-R1-Distill-Qwen-32B는 LiveCodeBench에서 85.7%를 달성하며, 88.5%인 o1(high)에 근접합니다. 코드는 https://github.com/NovaSky-AI/SkyThought에서 제공될 예정입니다.
DeepSeek-R1의 성공에 영감을 받아, 우리는 대규모 추론 모델에서 규칙 기반 강화 학습(RL)의 잠재력을 탐구합니다. 추론 역학을 분석하기 위해, 우리는 통제 가능한 복잡성과 직관적인 정답 검증이 가능한 합성 논리 퍼즐을 학습 데이터로 사용합니다. 우리는 효과적이고 안정적인 RL 학습을 이끌어내는 몇 가지 핵심 기술적 기여를 합니다: 사고와 답변 과정을 강조하는 시스템 프롬프트, 지름길을 택하는 출력에 대해 패널티를 부여하는 엄격한 형식 보상 함수, 그리고 안정적인 수렴을 달성하는 직관적인 학습 레시피가 그것입니다. 우리의 7B 모델은 논리 코퍼스에는 없는 반영, 검증, 요약과 같은 고급 추론 능력을 개발합니다. 주목할 만하게도, 단 5,000개의 논리 문제를 학습한 후, 이 모델은 도전적인 수학 벤치마크인 AIME와 AMC에 대한 일반화 능력을 보여줍니다.
확장 가능한 내결함성 양자 컴퓨팅의 실현은 양자 오류 정정 코드에 달려 있을 것으로 예상됩니다. 더 효율적인 양자 내결함성을 추구하는 과정에서, 오류에 대한 정보를 추출하여 오류 정정을 가능하게 하는 측정의 가중치(weight)는 중요한 코드 매개변수입니다. 더 높은 측정 가중치는 더 높은 구현 비용을 요구하고 더 많은 오류를 유발하기 때문에, 코드 설계에서 측정 가중치를 최적화하는 것이 중요합니다. 이는 양자 저밀도 패리티 검사(qLDPC) 코드에 대한 관심이 급증하는 배경이 되며, 이에 대한 연구는 주로 점근적(큰 코드 한계) 특성에 초점을 맞추어 왔습니다. 본 연구에서는 강화 학습(RL)을 기반으로 한 다재다능하고 계산적으로 효율적인 스태빌라이저 코드 가중치 감소 접근법을 소개합니다. 이 접근법은 실질적으로 중요한 매개변수 영역에서 기존의 최신 기술을 크게 능가하는 새로운 저가중치 코드를 생성하며, 이전에 접근 가능했던 작은 거리를 크게 확장합니다. 예를 들어, 우리의 접근법은 가중치 6 코드에 대해 기존 결과 대비 물리적 큐비트 오버헤드를 1~2배 절감하며, 이 오버헤드를 가까운 미래의 실험에 실현 가능한 범위로 끌어올립니다. 또한, 우리는 RL 프레임워크를 사용하여 코드 매개변수 간의 상호작용을 조사함으로써, 실질적으로 실행 가능한 코딩 전략의 잠재적 효율성과 성능에 대한 새로운 통찰을 제공합니다. 전반적으로, 우리의 결과는 RL이 양자 코드 발견이라는 중요하면서도 어려운 문제를 효과적으로 발전시켜, 내결함성 양자 기술의 실질적 구현을 더 빠르게 촉진할 수 있음을 보여줍니다.
최근 연구들은 LLM(대형 언어 모델)의 테스트 시점 스케일링의 효과성을 입증해 왔습니다. 그러나 LLM의 심층 사고 능력을 촉진하기 위한 기존 접근 방식들은 대규모 데이터나 상당한 학습 노력을 필요로 하는 경우가 일반적입니다. 한편, 성능이 상대적으로 낮은 기본 모델들의 사고 능력을 향상시키는 방법은 여전히 불분명합니다. 본 연구에서는 S^2R이라는 효율적인 프레임워크를 소개하며, 이는 추론 과정에서 모델이 스스로 검증하고 수정하도록 가르침으로써 LLM의 추론 능력을 향상시킵니다. 구체적으로, 우리는 먼저 신중하게 선별된 데이터에 대한 지도 미세 조정을 통해 LLM에 반복적인 자기 검증 및 자기 수정 행동을 초기화합니다. 그런 다음, 결과 수준과 과정 수준의 강화 학습을 통해 자기 검증 및 자기 수정 기술을 더욱 강화하며, 최소한의 자원 요구로 모델이 추론 과정에서 적응적으로 사고 과정을 개선할 수 있도록 합니다. 우리의 결과는 단 3.1k개의 자기 검증 및 자기 수정 행동 초기화 샘플만으로 Qwen2.5-math-7B 모델의 정확도가 51.0%에서 81.6%로 향상되었음을 보여주며, 이는 동일한 양의 long-CoT 증류 데이터로 학습된 모델들을 능가하는 성능입니다. 도메인 내 및 도메인 외 벤치마크를 기반으로 한 세 가지 기본 모델에 대한 광범위한 실험과 분석은 S^2R의 효과성을 검증합니다. 우리의 코드와 데이터는 https://github.com/NineAbyss/S2R에서 확인할 수 있습니다.
언어 모델이 사실을 도출하는 능력은 널리 연구되어 왔지만, 시간에 따라 변화하는 사실을 어떻게 처리하는지는 아직 충분히 탐구되지 않았습니다. 우리는 회로 분석을 통해 시간적 지식을 주로 처리하는 특정 어텐션 헤드인 'Temporal Heads'를 발견했습니다. 이러한 헤드가 여러 모델에 걸쳐 존재하지만, 그 구체적인 위치는 다를 수 있으며, 지식의 유형과 해당 연도에 따라 반응이 달라짐을 확인했습니다. 이러한 헤드를 비활성화하면 모델의 시간 특정 지식을 회상하는 능력이 저하되지만, 시간 불변적 특성과 질문 응답 성능은 유지됩니다. 또한, 이 헤드들은 숫자 조건("2004년에")뿐만 아니라 텍스트 별칭("...년에")에서도 활성화되어, 단순한 숫자 표현을 넘어 시간적 차원을 인코딩함을 나타냅니다. 더 나아가, 우리는 이러한 헤드의 값을 조정함으로써 시간적 지식을 편집할 수 있는 가능성을 보여줌으로써 연구 결과의 잠재력을 확장했습니다.
기존의 대형 시각-언어 모델(LVLMs)은 최대 128,000개의 시각 및 텍스트 토큰을 처리할 수 있지만, 1,000단어를 초과하는 일관된 출력을 생성하는 데 어려움을 겪습니다. 우리는 이러한 주요 한계가 지도 미세 조정(SFT) 과정에서 긴 출력 예제가 부족하기 때문이라는 것을 발견했습니다. 이 문제를 해결하기 위해, 우리는 22,158개의 예제로 구성된 LongWriter-V-22k SFT 데이터셋을 소개합니다. 이 데이터셋은 각각 여러 개의 입력 이미지, 지시문, 그리고 0에서 10,000단어까지의 해당 출력을 포함합니다. 또한, 입력 이미지에 대한 높은 충실도를 유지하면서 긴 출력을 달성하기 위해, SFT 모델에 직접 선호도 최적화(DPO)를 적용합니다. 긴 출력(예: 3,000단어)에 대한 인간 피드백 수집의 높은 비용을 고려하여, 우리는 IterDPO를 제안합니다. 이 방법은 긴 출력을 세그먼트로 나누고 반복적인 수정을 통해 원본 출력과 선호 쌍을 형성합니다. 추가적으로, 우리는 VLMs의 장문 생성 능력을 평가하기 위해 6가지 작업을 포함한 MMLongBench-Write 벤치마크를 개발했습니다. LongWriter-V-22k와 IterDPO로 훈련된 우리의 7B 파라미터 모델은 이 벤치마크에서 인상적인 성능을 보이며, GPT-4o와 같은 더 큰 독점 모델을 능가합니다. 코드와 데이터: https://github.com/THU-KEG/LongWriter-V
MLLM 기반 GUI 에이전트 분야에서, 스마트폰과 비교했을 때 PC 시나리오는 더 복잡한 상호작용 환경을 특징으로 할 뿐만 아니라, 더 정교한 앱 내부 및 앱 간 워크플로우를 포함합니다. 이러한 문제를 해결하기 위해, 우리는 PC-Agent라는 계층적 에이전트 프레임워크를 제안합니다. 구체적으로, 인식 측면에서 현재 MLLM의 스크린샷 내용 인식 능력 부족을 극복하기 위해 Active Perception Module(APM)을 설계했습니다. 의사결정 측면에서는 복잡한 사용자 지시와 상호 의존적인 하위 작업을 더 효과적으로 처리하기 위해, 의사결정 프로세스를 Instruction-Subtask-Action 수준으로 분해하는 계층적 다중 에이전트 협업 아키텍처를 제안합니다. 이 아키텍처 내에서, 지시 분해, 진행 상황 추적 및 단계별 의사결정을 각각 담당하는 세 가지 에이전트(Manager, Progress, Decision)가 설정됩니다. 또한, Reflection 에이전트를 도입하여 시기적절한 하향식 오류 피드백과 조정이 가능하도록 했습니다. 우리는 또한 25개의 실제 복잡한 지시를 포함한 새로운 벤치마크 PC-Eval을 소개합니다. PC-Eval에 대한 실험 결과, 우리의 PC-Agent는 기존 최첨단 방법 대비 작업 성공률에서 32%의 절대적 개선을 달성했습니다. 코드는 공개될 예정입니다.
대규모 언어 모델(LLM)의 진화 속도는 엄격하고 포괄적인 평가를 위한 새로운 접근 방식을 요구하고 있습니다. 고품질의 도전적인 문제를 생성하는 데 따른 복잡성과 비용으로 인해 전통적인 인간 주석 방식은 점점 더 실현하기 어려워지고 있습니다. 본 연구에서는 인간의 개입 없이 LLM을 사용하여 도전적인 문제를 합성적으로 생성하는 통합 프레임워크인 CHASE를 소개합니다. 주어진 작업에 대해 우리의 접근 방식은 더 단순한 구성 요소로부터 하향식으로 어려운 문제를 구축합니다. 또한, 우리의 프레임워크는 생성 과정을 독립적으로 검증 가능한 하위 작업으로 분해함으로써 높은 수준의 품질과 정확성을 보장합니다. 우리는 CHASE를 구현하여 세 가지 다양한 영역에서 평가 벤치마크를 생성했습니다: (1) 문서 기반 질문 응답, (2) 저장소 수준 코드 완성, (3) 수학적 추론. 최신 LLM이 이러한 합성 벤치마크에서 보인 성능은 40-60%의 정확도 범위에 있어, 우리의 프레임워크가 도전적인 문제를 생성하는 데 효과적임을 입증합니다. 우리는 벤치마크와 코드를 공개합니다.
생성적 텍스트-이미지 모델의 개인화는 놀라운 진전을 보여왔지만, 이를 텍스트-비디오 모델로 확장하는 것은 독특한 도전 과제를 제시합니다. 정적 개념과 달리, 텍스트-비디오 모델의 개인화는 동적 개념, 즉 외관뿐만 아니라 움직임으로 정의된 개체를 포착할 수 있는 잠재력을 가지고 있습니다. 본 논문에서는 동적 개념을 기반으로 Diffusion Transformers(DiTs) 기반 생성 비디오 모델을 개인화하기 위한 새로운 프레임워크인 Set-and-Sequence를 소개합니다. 우리의 접근 방식은 공간적 및 시간적 특징을 명시적으로 분리하지 않는 아키텍처 내에서 시공간적 가중치 공간을 부과합니다. 이는 두 가지 주요 단계로 이루어집니다. 먼저, 비디오의 순서 없는 프레임 세트를 사용하여 Low-Rank Adaptation(LoRA) 레이어를 미세 조정하여 시간적 간섭 없이 외관을 나타내는 identity LoRA 기반을 학습합니다. 두 번째 단계에서는, identity LoRA를 고정한 상태에서 Motion Residuals로 계수를 보강하고 전체 비디오 시퀀스에 대해 미세 조정하여 움직임 역학을 포착합니다. 우리의 Set-and-Sequence 프레임워크는 동적 개념을 비디오 모델의 출력 도메인에 효과적으로 내장하는 시공간적 가중치 공간을 생성하며, 전례 없는 편집성과 구성성을 가능하게 하면서 동적 개념 개인화에 대한 새로운 벤치마크를 설정합니다.
대형 언어 모델(LLMs)은 언어 처리에서 인상적인 능력을 보여왔지만, 진정한 시각적 공간 추론이 필요한 작업에서는 종종 어려움을 겪습니다. 본 논문에서는 표준 LLMs에 미로 탐색을 위한 시각적 추론 능력을 부여하기 위해 설계된 새로운 2단계 훈련 프레임워크를 소개합니다. 먼저, 토큰화된 미로 표현으로 구성된 데이터셋에 대한 지도 미세 조정(SFT)을 활용하여 모델이 단계별 이동 명령을 예측하도록 학습시킵니다. 다음으로, DeepSeekR1에서 사용된 그룹 상대 정책 최적화(GRPO) 기법을 신중하게 설계된 보상 함수와 함께 적용하여 모델의 순차적 의사결정을 개선하고 사고의 연쇄적 행동을 유도합니다. 합성적으로 생성된 미로에 대한 실험 결과는, 기준 모델이 미로를 탐색하지 못한 반면 SFT로 훈련된 모델은 86%의 정확도를 달성했으며, 추가 GRPO 미세 조정을 통해 정확도가 93%로 향상되었음을 보여줍니다. 질적 분석은 GRPO가 더 견고하고 자기 수정적인 추론을 촉진함을 밝혀내어, 언어 모델과 시각적 공간 작업 간의 격차를 해소할 수 있는 우리의 접근법의 잠재력을 강조합니다. 이러한 발견은 로봇공학, 자율 주행 및 시각적 및 순차적 추론이 통합된 다른 분야의 응용에 유망한 시사점을 제공합니다.
대규모 언어 모델(LLM)은 긴 시퀀스 처리에서 뛰어난 잠재력을 보여주었지만, 프리필 단계에서 어텐션의 이차 계산 복잡성과 디코딩 단계에서 KV 캐시의 큰 메모리 공간으로 인해 이러한 장문 컨텍스트 모델을 효율적으로 서비스하는 것은 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 하이브리드 희소 어텐션을 통해 장문 시퀀스 LLM 서비스를 가속화하는 효율적인 시스템인 LServe를 소개합니다. 이 방법은 프리필과 디코딩 어텐션을 위한 다양한 하드웨어 친화적 구조적 희소 패턴을 단일 프레임워크로 통합하며, 덜 중요한 토큰에 대한 계산을 블록 단위로 건너뜁니다. LServe는 장문 컨텍스트 LLM 어텐션에서 정적 및 동적 희소성의 호환성을 입증합니다. 이 설계는 이러한 최적화를 결합하여 곱셈적 속도 향상을 가능하게 합니다. 구체적으로, 우리는 프리필과 디코딩 단계에서 어텐션 헤드의 절반을 거의 무료 스트리밍 헤드로 변환합니다. 또한, 컨텍스트 길이와 관계없이 장문 컨텍스트 기능을 유지하기 위해 일정한 수의 KV 페이지만 필요하다는 것을 발견했습니다. 그런 다음, 쿼리 중심 유사성을 기반으로 KV 페이지를 동적으로 정리하는 계층적 KV 페이지 선택 정책을 설계합니다. 평균적으로 LServe는 vLLM 대비 프리필 속도를 최대 2.9배, 디코딩 속도를 1.3-2.1배 가속화하며 장문 컨텍스트 정확도를 유지합니다. 코드는 https://github.com/mit-han-lab/omniserve에서 공개되었습니다.
차트와 문서와 같은 풍부한 텍스트가 포함된 이미지에 대한 추론은 시각-언어 모델(VLMs)의 중요한 응용 분야입니다. 그러나 VLMs는 다양한 텍스트 중심의 시각-언어 데이터가 부족하기 때문에 이러한 영역에서 종종 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 텍스트 전용 대형 언어 모델(LLMs)의 코딩 능력을 활용하여 합성 텍스트 중심의 다중모드 데이터를 자동으로 생성하는 CoSyn 프레임워크를 제안합니다. 대상 도메인(예: "영양 성분 표")을 설명하는 입력 텍스트가 주어지면, CoSyn은 LLM에게 합성 이미지를 렌더링하기 위한 코드(Python, HTML, LaTeX 등)를 생성하도록 프롬프트합니다. 합성 이미지의 텍스트 표현으로서의 기본 코드를 통해, CoSyn은 다시 텍스트 전용 LLM을 사용하여 고품질의 지시 튜닝 데이터를 생성할 수 있습니다. CoSyn을 사용하여, 우리는 40만 개의 이미지와 270만 개의 시각-언어 지시 튜닝 데이터로 구성된 데이터셋을 구축했습니다. 7개의 벤치마크에 대한 포괄적인 실험 결과, 우리의 합성 데이터로 훈련된 모델은 Llama 3.2를 포함한 경쟁적인 오픈소스 모델들 중에서 최고의 성능을 달성했으며, GPT-4V와 Gemini 1.5 Flash와 같은 독점 모델들을 능가했습니다. 또한, CoSyn은 합성 포인팅 데이터를 생성할 수 있어, VLMs가 입력 이미지 내에서 정보를 기반으로 할 수 있게 하며, 이는 실제 환경에서 작동할 수 있는 다중모드 에이전트 개발의 잠재력을 보여줍니다.
지속적으로 지식을 습득하고 조직화하며 활용하는 능력은 인간 지능의 핵심 특징으로, AI 시스템이 그 잠재력을 최대한 발휘하기 위해서는 이를 근사화해야 합니다. 대규모 언어 모델(LLM)을 이용한 지속 학습의 어려움을 고려할 때, 검색 증강 생성(RAG)은 새로운 정보를 도입하는 주요 방법으로 자리 잡았습니다. 그러나 RAG는 벡터 검색에 의존하기 때문에 인간의 장기 기억이 가진 동적이고 상호 연결된 특성을 모방하는 데 한계가 있습니다. 최근의 RAG 접근법은 벡터 임베딩에 지식 그래프와 같은 다양한 구조를 추가하여 의미 이해와 연관성 측면의 격차를 일부 해소하고 있습니다. 하지만 이러한 방법들은 기본적인 사실 기억 작업에서 표준 RAG에 비해 상당히 낮은 성능을 보입니다. 우리는 이러한 의도치 않은 성능 저하를 해결하고, 사실 기억, 의미 이해, 연관 기억 작업에서 표준 RAG를 포괄적으로 능가하는 HippoRAG 2 프레임워크를 제안합니다. HippoRAG 2는 HippoRAG에서 사용된 Personalized PageRank 알고리즘을 기반으로 하며, 더 깊은 문장 통합과 LLM의 더 효과적인 온라인 활용을 통해 강화되었습니다. 이 조합은 RAG 시스템을 인간의 장기 기억 효과에 더 가깝게 만들어, 최신 임베딩 모델 대비 연관 기억 작업에서 7%의 성능 향상을 달성함과 동시에 우수한 사실 지식과 의미 이해 기억 능력을 보여줍니다. 이 연구는 LLM을 위한 비모수적 지속 학습의 길을 열어줍니다. 우리의 코드와 데이터는 https://github.com/OSU-NLP-Group/HippoRAG에서 공개될 예정입니다.
디퓨전 트랜스포머(Diffusion Transformer)는 주로 그 자체의 확장성 덕분에 텍스트-이미지 및 텍스트-비디오 생성 분야에서 핵심적인 역할을 하고 있습니다. 그러나 기존의 제어된 디퓨전 트랜스포머 방법들은 상당한 매개변수와 계산 오버헤드를 초래하며, 트랜스포머 계층 간 제어 정보의 상대적 중요성을 고려하지 못해 자원 할당이 비효율적이라는 문제가 있습니다. 이를 해결하기 위해, 우리는 제어 신호를 디퓨전 트랜스포머에 효율적이고 자원 최적화된 방식으로 통합하는 "관련성 기반 효율적 제어 생성 프레임워크(RelaCtrl)"를 제안합니다. 먼저, 우리는 디퓨전 트랜스포머의 각 계층이 제어 정보와 얼마나 관련이 있는지를 "ControlNet 관련성 점수(ControlNet Relevance Score)"를 통해 평가합니다. 이는 각 제어 계층을 생략했을 때 생성 품질과 제어 효과에 미치는 영향을 측정하는 것입니다. 관련성의 강도에 기반하여, 우리는 제어 계층의 위치, 매개변수 규모 및 모델링 용량을 조정하여 불필요한 매개변수와 중복 계산을 줄입니다. 또한, 효율성을 더욱 개선하기 위해 일반적으로 사용되는 복사 블록(copy block)의 자기 주의(self-attention)와 FFN(Feed-Forward Network)을 신중하게 설계된 2차원 셔플 믹서(Two-Dimensional Shuffle Mixer, TDSM)로 대체하여 토큰 믹서와 채널 믹서를 효율적으로 구현합니다. 정성적 및 정량적 실험 결과는 우리의 접근 방식이 PixArt-delta 대비 매개변수와 계산 복잡도의 15%만으로도 우수한 성능을 달성함을 보여줍니다. 더 많은 예시는 https://relactrl.github.io/RelaCtrl/에서 확인할 수 있습니다.
이미지 지리적 위치 추정(Image geo-localization)은 이미지의 구체적인 위치를 예측하는 작업으로, 시각적, 지리적, 문화적 맥락에 걸친 복잡한 추론이 필요합니다. 기존의 비전 언어 모델(Vision Language Models, VLMs)이 이 작업에서 가장 높은 정확도를 보이고 있지만, 분석적 추론을 위한 고품질 데이터셋과 모델이 부족한 실정입니다. 우리는 먼저 인기 있는 지리 게임인 GeoGuessr에서 파생된 고품질 데이터셋인 NaviClues를 구축하여 언어를 통한 전문가 수준의 추론 사례를 제공합니다. 이 데이터셋을 활용하여, 우리는 전역적(global) 및 세부적(fine-grained) 이미지 정보를 통합한 포괄적인 이미지 지리적 위치 추론 프레임워크인 Navig를 제시합니다. 언어를 통한 추론을 통해 Navig는 이전의 최첨단 모델 대비 평균 거리 오차를 14% 줄이면서도 1000개 미만의 학습 샘플만을 요구합니다. 우리의 데이터셋과 코드는 https://github.com/SparrowZheyuan18/Navig/에서 확인할 수 있습니다.
LLM 개발자들은 점점 더 합성 데이터에 의존하고 있지만, 복잡한 장문 맥락 추론 작업을 위한 고품질 데이터 생성은 여전히 어려운 과제로 남아 있습니다. 우리는 서술적 주장 검증(narrative claim verification)에 특화된 합성 데이터 생성을 위한 압축 기반 접근법인 CLIPPER를 소개합니다. 이 작업은 주어진 주장을 검증하기 위해 책 전체를 추론해야 하는 과제입니다. CLIPPER는 책의 원본 텍스트에서 직접 주장을 생성하는 방식(이는 인공물이 가득한 주장을 초래함) 대신, 먼저 책을 챕터 개요와 책 요약으로 압축한 후, 이러한 중간 표현을 사용하여 복잡한 주장과 해당 사고 사슬(chain-of-thought)을 생성합니다. 단순한 접근법과 비교했을 때, CLIPPER는 더 타당하고 근거가 있으며 복잡한 주장을 생성합니다. CLIPPER를 사용하여 우리는 19,000개의 합성 책 주장 데이터셋을 구축했으며, 이는 원본 텍스트와 사고 사슬 추론과 짝을 이룹니다. 이를 통해 세 개의 오픈 웨이트 모델을 미세 조정했습니다. 우리의 최고 모델은 서술적 주장 검증에서 획기적인 결과를 달성했으며(테스트 세트에서 28%에서 76% 정확도로 향상), NoCha 리더보드에서 10B 미만 모델의 새로운 최첨단(state-of-the-art) 성능을 기록했습니다. 추가 분석 결과, 우리의 모델은 더 상세하고 근거가 있는 사고 사슬 추론을 생성하면서도 다른 서술 이해 작업(예: NarrativeQA)에서도 성능이 향상되었음을 보여줍니다.
대규모 멀티모달 모델(LMMs)은 다양한 시각적 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 이러한 모델들은 세부적인 시각적 추론에 어려움을 겪으며, 도메인 특화된 목표를 식별하고 예측에 대한 타당한 설명을 제공하는 데 실패하는 경우가 많습니다. 이를 해결하기 위해, 우리는 자체 합성 데이터를 활용하여 LMMs의 인지 능력과 설명 가능성을 향상시키는 새로운 시각적 거부 샘플링 프레임워크를 제안합니다. 구체적으로, 시각적 미세 조정에는 이미지, 질의, 그리고 목표 답변이 필요합니다. 우리의 접근 방식은 인간이 검증 가능한 시각적 특징을 포함한 해석 가능한 답변을 합성하는 것부터 시작합니다. 이러한 특징들은 전문가가 정의한 개념을 기반으로 하며, 이미지 내용과의 일치도를 기준으로 신중하게 선택됩니다. 각 미세 조정 단계 후, 우리는 보상 모델이 없는 필터링 메커니즘을 적용하여 다음 조정 단계를 위한 최고 품질의 해석 가능한 답변을 선택합니다. 이 데이터 합성과 미세 조정의 반복적인 과정은 모델이 정확하고 합리적인 설명을 생성하는 능력을 점진적으로 향상시킵니다. 실험 결과는 우리의 방법이 특화된 시각적 분류 작업의 정확성과 설명 가능성을 모두 개선하는 데 효과적임을 보여줍니다.
보상 모델은 출력 품질을 평가하여 인간의 선호도와 정렬할 수 있도록 함으로써 시각-언어 모델(VLMs) 훈련에서 핵심적인 역할을 수행합니다. 그 중요성에도 불구하고, 연구 커뮤니티는 VLM의 다중모달 보상 모델을 평가하기 위한 포괄적인 공개 벤치마크가 부족한 실정입니다. 이러한 격차를 해소하기 위해, 우리는 일반 정확성, 선호도, 지식, 추론, 안전성, 시각 질의응답 등 6개 영역을 아우르는 전문가 주석이 달린 벤치마크인 Multimodal RewardBench를 소개합니다. 우리의 데이터셋은 다양한 VLM에서 수집된 5,211개의 (프롬프트, 선택된 응답, 거부된 응답) 삼중항으로 구성되어 있습니다. 다양한 VLM 판단 모델을 평가한 결과, 최고 성능을 보인 Gemini 1.5 Pro와 Claude 3.5 Sonnet조차도 전체 정확도가 72%에 그쳤습니다. 특히, 대부분의 모델이 추론 및 안전성 영역에서 어려움을 겪는 것으로 나타났습니다. 이러한 결과는 Multimodal RewardBench가 여러 영역에서 보상 모델 개발을 진전시키기 위한 도전적인 테스트베드를 제공함을 시사합니다. 우리는 이 벤치마크를 https://github.com/facebookresearch/multimodal_rewardbench에서 공개합니다.
다양한 데이터 기반 AI 및 머신 러닝 모델에 필요한 고품질 데이터셋을 준비하는 것은 데이터 기반 분석의 핵심 작업이 되었습니다. 기존의 데이터 탐색 방법은 일반적으로 단일 사전 정의된 품질 측정 기준에 따라 데이터셋을 통합하므로, 이는 다운스트림 작업에 편향을 초래할 수 있습니다. 본 논문은 사용자 정의 모델 성능 측정 기준을 다중으로 최적화하여 데이터셋을 탐색하는 MODis 프레임워크를 소개합니다. 주어진 데이터 소스 집합과 모델에 대해, MODis는 데이터 소스를 선택하고 통합하여 스카이라인 데이터셋을 생성하며, 이 데이터셋 위에서 모델이 모든 성능 측정 기준에서 원하는 성능을 발휘할 것으로 기대됩니다. 우리는 MODis를 다중 목표 유한 상태 변환기로 공식화하고, 스카이라인 데이터셋을 생성하기 위한 세 가지 실행 가능한 알고리즘을 도출했습니다. 첫 번째 알고리즘은 "보편적 스키마에서 축소" 전략을 채택하여, 보편적 스키마에서 시작하여 유망하지 않은 데이터를 반복적으로 제거합니다. 두 번째 알고리즘은 데이터 증강과 축소를 교차적으로 수행하는 양방향 전략을 통해 비용을 더욱 절감합니다. 또한, 스카이라인 데이터셋의 편향을 완화하기 위한 다양화 알고리즘을 도입했습니다. 우리는 스카이라인 데이터 탐색 알고리즘의 효율성과 효과를 실험적으로 검증하고, 데이터 과학 파이프라인 최적화에서의 응용 사례를 보여줍니다.
대규모 언어 모델(LLM)의 급속한 발전은 기존의 학습 없이도 추천이 가능한 제로샷 추천 시스템에 새로운 기회를 열어주었습니다. 그러나 이러한 잠재력에도 불구하고, 대부분의 기존 연구는 사용자의 구매 이력에만 의존하고 있어, 리뷰나 제품 설명과 같은 사용자 생성 텍스트 데이터를 활용함으로써 개선의 여지가 크게 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 PURE라는 새로운 LLM 기반 추천 프레임워크를 제안합니다. PURE는 사용자 리뷰에서 핵심 정보를 체계적으로 추출하고 요약하여 진화하는 사용자 프로필을 구축하고 유지합니다. PURE는 세 가지 핵심 구성 요소로 이루어져 있습니다: 사용자 선호도와 주요 제품 특징을 식별하는 리뷰 추출기(Review Extractor), 사용자 프로필을 정제하고 업데이트하는 프로필 업데이터(Profile Updater), 그리고 최신 프로필을 활용하여 개인화된 추천을 생성하는 추천기(Recommender)입니다. PURE를 평가하기 위해, 우리는 시간이 지남에 따라 리뷰를 추가하고 예측을 점진적으로 업데이트하는 현실 세계 시나리오를 반영한 연속 순차 추천 작업을 도입했습니다. 아마존 데이터셋에 대한 실험 결과는 PURE가 기존의 LLM 기반 방법들을 능가하며, 토큰 제한을 관리하면서 장기적인 사용자 정보를 효과적으로 활용함을 보여줍니다.
분포 외 특성을 지닌 새로운 분자를 생성하는 것은 분자 발견 분야에서 주요한 과제입니다. 지도 학습 방법은 데이터셋 내 분자와 유사한 고품질 분자를 생성할 수 있지만, 분포 외 특성으로 일반화하는 데 어려움을 겪습니다. 강화 학습은 새로운 화학적 공간을 탐색할 수 있지만, 종종 '보드 해킹(reward-hacking)'을 수행하거나 합성 불가능한 분자를 생성합니다. 본 연구에서는 최신 지도 학습 방법인 STGG+를 능동 학습 루프에 통합하여 이 문제를 해결합니다. 우리의 접근 방식은 STGG+를 반복적으로 생성, 평가 및 미세 조정하여 지식을 지속적으로 확장합니다. 이 방법을 STGG+AL로 명명합니다. 우리는 STGG+AL을 유기 π-기능성 물질 설계에 적용하며, 특히 두 가지 도전적인 과제를 다룹니다: 1) 높은 진동자 강도(oscillator strength)로 특징지어지는 고흡수성 분자 생성, 2) 근적외선(NIR) 영역에서 합리적인 진동자 강도를 지닌 흡수성 분자 설계. 생성된 분자는 시간 의존 밀도 범함수 이론(time-dependent density functional theory)을 통해 시뮬레이션으로 검증 및 합리화됩니다. 우리의 결과는 강화 학습(RL) 방법과 같은 기존 방법과 달리, 이 방법이 높은 진동자 강도를 지닌 새로운 분자를 생성하는 데 매우 효과적임을 보여줍니다. 우리는 능동 학습 코드와 290만 개의 π-공액 분자를 포함한 Conjugated-xTB 데이터셋, 그리고 진동자 강도와 흡수 파장을 근사하는 함수(sTDA-xTB 기반)를 오픈소스로 공개합니다.
최근 연구에 따르면, 대형 시각-언어 모델(VLMs)은 이미지 콘텐츠를 소홀히 하고 언어 모델의 사전 지식에 과도하게 의존하는 경향이 있어, 시각적으로 기반한 작업에서 오류와 환각(hallucination) 현상을 일으키는 것으로 나타났습니다. 우리는 이러한 문제가 기존 VLMs가 세밀한 이미지 세부 사항에 정확히 기반한 텍스트를 생성하도록 명시적으로 훈련되지 않았기 때문에 발생한다고 가정합니다. VLM 훈련 중 시각적 피드백을 강화하기 위해, 우리는 중요한 시각적 세부 사항을 포착하고 이를 해당 텍스트 토큰과 정렬하도록 모델을 유도하는 새로운 파인튜닝 목표인 S-VCO(Symmetrical Visual Contrastive Optimization)를 제안합니다. 이러한 세부 정렬을 더욱 촉진하기 위해, 우리는 MVC라는 짝을 이루는 이미지-텍스트 데이터셋을 도입했습니다. 이 데이터셋은 시각적 반사실적 데이터를 자동으로 필터링하고 증강하여, 최소 시각적 대비(Minimal Visual Contrasts)를 포함한 어려운 대조 사례를 모델에 제시하도록 구성되었습니다. 실험 결과, 우리의 방법은 다양한 능력과 도메인을 아우르는 벤치마크에서 VLM 성능을 꾸준히 향상시켰으며, 환각 현상을 최대 22% 감소시키고, 시각 중심 및 일반 작업에서 상당한 성과를 거두었습니다. 특히, 이러한 개선은 시각적 의존도가 높은 벤치마크에서 더욱 두드러졌습니다. 요약하면, S-VCO는 VLM의 시각적 의존 작업 성능을 크게 향상시키면서도 모델의 일반적인 능력을 유지하거나 오히려 개선합니다. 우리는 코드를 https://s-vco.github.io/에서 공개했습니다.
지리적 위치 파악(Geolocation)은 이미지의 위치를 식별하는 작업으로, 복잡한 추론을 요구하며 항법, 모니터링, 문화 보존에 있어 핵심적인 역할을 합니다. 그러나 현재의 방법론들은 대체로 대략적이고 부정확하며 해석이 어려운 위치 파악 결과를 내놓는 경우가 많습니다. 주요한 도전 과제 중 하나는 기존 지리적 위치 데이터셋의 품질과 규모에 있습니다. 이러한 데이터셋은 일반적으로 소규모이며 자동으로 구축되어 있어 노이즈가 많고 작업 난이도가 일관적이지 않습니다. 이로 인해 이미지가 너무 쉽게 답을 드러내거나 신뢰할 만한 추론을 위한 충분한 단서가 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 세 가지 핵심 구성 요소를 갖춘 포괄적인 지리적 위치 파악 프레임워크를 소개합니다: 대규모 데이터셋인 GeoComp, 새로운 추론 방법론인 GeoCoT, 그리고 평가 지표인 GeoEval입니다. 이들은 지리적 위치 연구의 주요 도전 과제를 해결하고 발전을 촉진하기 위해 공동으로 설계되었습니다. 이 프레임워크의 핵심은 GeoComp(Geolocation Competition Dataset)로, 2년 동안 740,000명의 사용자가 참여한 지리적 위치 게임 플랫폼에서 수집된 대규모 데이터셋입니다. 이 데이터셋은 전 세계 대부분을 아우르는 2,500만 개의 메타데이터 항목과 300만 개의 지리적 태그가 달린 위치로 구성되어 있으며, 각 위치는 인간 사용자에 의해 수천에서 수만 번 주석 처리되었습니다. 이 데이터셋은 다양한 난이도를 제공하여 세부적인 분석이 가능하며, 현재 모델들의 주요 격차를 부각시킵니다. 이 데이터셋을 기반으로, 우리는 대형 비전 모델(LVMs)의 지리적 위치 파악 작업에서의 추론 능력을 향상시키기 위해 설계된 새로운 다단계 추론 프레임워크인 지리적 사고의 연쇄(Geographical Chain-of-Thought, GeoCoT)를 제안합니다. GeoCoT는 인간의 지리적 위치 추론을 모방한 다단계 프로세스를 통해 문맥적 및 공간적 단서를 통합하여 성능을 개선합니다. 마지막으로, GeoEval 지표를 사용하여 GeoCoT가 지리적 위치 정확도를 최대 25%까지 크게 향상시키면서 동시에 해석 가능성을 높인다는 것을 입증합니다.
대규모 언어 모델(LLMs)은 사용자 질의가 주어졌을 때 매우 긴 문맥에서도 일관된 요약을 생성할 수 있는 능력을 갖추고 있습니다. 이러한 요약의 투명성과 신뢰성을 높이기 위해 증거 범위를 추출하고 적절히 인용하는 것이 도움이 될 수 있습니다. 동시에, LLMs는 이해하고 주의를 기울이는 정보에 있어 위치적 편향을 겪을 수 있으며, 이는 증거 인용에 영향을 미칠 수 있습니다. 기존 연구는 미리 정의된 세분화 수준(예: 문장, 단락, 문서 등)을 기준으로 증거 인용에 초점을 맞추었던 반면, 우리는 비정형 증거 인용을 포함한 장문 문맥 질의 중심 요약 작업을 제안합니다. 우리는 기존 시스템들이 문맥에서 비정형 증거를 생성하고 적절히 인용하는 데 어려움을 겪으며, 증거가 "중간에서 소실"되는 경향이 있음을 보여줍니다. 이를 완화하기 위해, 우리는 Summaries with Unstructured Evidence Text(SUnsET) 데이터셋을 생성했습니다. 이는 새로운 도메인-불가지론적 파이프라인을 사용하여 생성된 합성 데이터셋으로, LLMs가 이 작업에 적응하도록 지도하는 데 사용될 수 있습니다. 우리는 다양한 크기의 5개 LLMs와 다양한 문서 유형 및 길이를 가진 4개 데이터셋을 통해, SUnsET 데이터로 적응된 LLMs가 기본 모델보다 더 관련성 있고 사실적으로 일관된 증거를 생성하며, 문맥 내에서 더 다양한 위치에서 증거를 추출하고, 더 관련성 있고 일관된 요약을 생성할 수 있음을 입증했습니다.
오늘날 잘못된 정보가 범람하는 시대에서, 대형 언어 모델(LLM)이 비사실적이거나 부정확한 응답을 생성하는 경향인 '환각(hallucination)'은 이들의 전반적인 유용성에 있어 주요 위험 요소로 대두되고 있습니다. LLM이 점점 더 다국어화되고 있음에도 불구하고, LLM 환각을 탐지하고 측정하는 연구의 대부분은 (a) 영어 중심적이며, (b) 기계 번역(MT)과 요약 작업에 초점을 맞추고 있습니다. 이는 실제 환경에서보다는 개방형 정보 탐색 작업에서 덜 일반적으로 사용되는 과제들입니다. 이와 대조적으로, 우리는 지식 집약적인 장문 질의응답에서 다양한 언어에 걸친 LLM 환각의 정도를 정량화하는 것을 목표로 합니다. 이를 위해, 우리는 다국어 환각 탐지 모델을 학습시키고, 30개 언어와 6개의 오픈소스 LLM 패밀리에 걸친 대규모 연구를 수행합니다. 우리는 영어 환각 탐지 데이터셋을 출발점으로 삼고, 기계 번역을 활용하여 다른 언어로 된 (노이즈가 포함된) 학습 데이터를 생성합니다. 또한, 우리는 5개의 고자원 언어에 대해 수동으로 골드 데이터를 주석 처리합니다; 그런 다음, 이러한 언어들에 대해, 은색(LLM 생성) 테스트 세트와 골드 테스트 세트 간의 환각 비율 추정치가 유사함을 보여줌으로써, 다른 언어의 환각 비율을 추정하는 데 은색 데이터를 사용하는 것이 타당함을 입증합니다. 최종 비율 추정을 위해, 우리는 LLM 생성 프롬프트와 위키피디아 문서를 참조 자료로 사용하여 30개 언어에 대한 지식 집약적인 질의응답 데이터셋을 구축합니다. 우리는, LLM이 고자원 언어에 대해 더 긴 응답과 더 많은 환각 토큰을 생성하는 반면, 길이 정규화된 환각 비율과 언어의 디지털 표현 간에는 상관관계가 없음을 발견했습니다. 더 나아가, 우리는 더 작은 LLM이 더 큰 모델보다 더 높은 환각 비율을 보인다는 사실을 발견했습니다.