번역이 포함된 일일 선별된 AI 연구 논문
강화 학습(Reinforcement Learning, RL)은 마르코프 결정 과정(Markov Decision Process, MDP)을 사용하여 의사 결정을 수학적으로 정의합니다. MDP를 통해 연구자들은 게임, 로봇 공학, 언어 모델 등 다양한 분야에서 혁신적인 성과를 이루어 왔습니다. 본 논문은 기존 MDP를 자연어 기반 표현 공간으로 확장하여 새로운 가능성, 자연어 강화 학습(Natural Language Reinforcement Learning, NLRL)을 탐구합니다. 구체적으로, NLRL은 RL 원칙인 작업 목표, 정책, 가치 함수, 벨만 방정식, 정책 반복 등을 해당하는 언어 상대물로 혁신적으로 재정의합니다. 대형 언어 모델(Large Language Models, LLMs)의 최근 발전을 통해 NLRL은 순수 프롬프팅(pure prompting) 또는 그래디언트 기반 훈련을 통해 RL과 유사한 정책 및 가치 향상을 실현할 수 있습니다. 미로, 브레이크스루, 틱택토 게임에 대한 실험을 통해 NLRL 프레임워크의 효과적이고 효율적이며 해석 가능한 특성이 다양한 사용 사례에서 입증되었습니다. 저희의 코드는 https://github.com/waterhorse1/Natural-language-RL에서 공개될 예정입니다.
기존 오픈 소스 다중 모달 대형 언어 모델 (MLLMs)은 일반적으로 사전 훈련과 지도된 세밀 조정을 포함하는 교육 과정을 따릅니다. 그러나 이러한 모델들은 분포 변화로 인해 다중 모달 추론, 특히 Chain-of-Thought (CoT) 성능에 제약을 받습니다. 이를 해결하기 위해 우리는 MLLMs의 다중 모달 추론 능력을 향상시키기 위해 선호도 최적화 (PO) 과정을 도입합니다. 구체적으로 (1) 데이터 측면에서 우리는 고품질 대규모 다중 모달 추론 선호 데이터 집합 MMPR을 만들기 위한 자동 선호 데이터 구축 파이프라인을 설계하고, (2) 모델 측면에서는 PO를 MLLMs와 통합하고, Mixed Preference Optimization (MPO)라는 간단하면서 효과적인 방법을 개발하여 다중 모달 CoT 성능을 향상시킵니다. 우리의 접근 방식은 다중 벤치마크에서 향상된 성능을 보여주며, 특히 다중 모달 추론 작업에서 두드러진 성과를 보입니다. 특히, InternVL2-8B-MPO라는 우리의 모델은 MathVista에서 67.0의 정확도를 달성하여 InternVL2-8B보다 8.7 포인트 우수하며 10배 더 큰 InternVL2-76B와 유사한 성능을 달성합니다. 이 연구가 MLLMs의 더 나은 발전을 일으킬 수 있기를 희망합니다. 코드, 데이터 및 모델은 공개적으로 공개될 것입니다.
현재 OpenAI의 o1은 대규모 추론 모델(LRM) 연구에 대한 관심을 촉발시켰다. 이 흐름을 이어가는 Marco-o1은 수학, 물리학, 코딩과 같은 표준 답변이 있는 학문뿐만 아니라 강화 학습(RL)에 적합한 분야에 초점을 맞추며, 개방적인 해결책에 더 많은 중점을 둔다. 우리의 목표는 "o1 모델이 명확한 기준이 없고 보상을 측정하기 어려운 넓은 영역에 효과적으로 일반화할 수 있는가?"이다. Marco-o1은 Chain-of-Thought (CoT) 미세 조정, 몬테카를로 트리 탐색 (MCTS), 반성 메커니즘 및 혁신적인 추론 전략에 의해 구동되며, 복잡한 실세계 문제 해결 작업에 최적화되어 있다.
대규모 비전 인코더 사전 훈련을 위한 새로운 방법을 소개합니다. 비전 모델의 자기 회귀 사전 훈련의 최근 발전을 기반으로, 우리는 이 프레임워크를 이미지와 텍스트와 같은 다중 모달 환경으로 확장합니다. 본 논문에서는 간단한 사전 훈련 과정, 확장성 및 다양한 하위 작업에서 높은 성능을 보이는 AIMV2라는 일반 비전 인코더 패밀리를 제시합니다. 이는 비전 인코더를 자동 회귀적으로 원시 이미지 패치와 텍스트 토큰을 생성하는 다중 모달 디코더와 짝지어 달성됩니다. 우리의 인코더는 다중 모달 평가 뿐만 아니라 위치 지정, 기준 및 분류와 같은 비전 벤치마크에서도 뛰어난 성과를 보입니다. 특히, 우리의 AIMV2-3B 인코더는 얼음이 꽉 막힌 상태에서 ImageNet-1k에서 89.5%의 정확도를 달성합니다. 더욱이, AIMV2는 다양한 환경에서 다중 모달 이미지 이해에서 최첨단 대조 모델 (예: CLIP, SigLIP)을 일관되게 능가합니다.
우리는 Hymba를 제안합니다. Hymba는 트랜스포머 어텐션 메커니즘을 상태 공간 모델(SSM)과 통합한 하이브리드 헤드 병렬 아키텍처를 갖춘 소규모 언어 모델 패밀리입니다. 어텐션 헤드는 고해상도 회상을 제공하며, SSM 헤드는 효율적인 문맥 요약을 가능하게 합니다. 더불어, 프롬프트 앞에 추가되는 학습 가능한 메타 토큰을 도입하여 주요 정보를 저장하고 어텐션 메커니즘과 관련된 "강제로 주목해야 하는" 부담을 완화합니다. 이 모델은 교차 레이어 키-값(KV) 공유와 부분 슬라이딩 윈도우 어텐션을 통합하여 캐시 크기를 조밀하게 만드는 최적화가 추가되었습니다. 개발 과정에서 우리는 동일한 설정 하에서 다양한 아키텍처를 비교하는 통제된 연구를 실시했고, 우리가 제안한 아키텍처의 중요한 장점을 관찰했습니다. 특히, Hymba는 소규모 LM에서 최첨단 결과를 달성합니다. Hymba-1.5B-Base 모델은 모든 sub-2B 공개 모델을 성능 면에서 능가하며, Llama-3.2-3B보다 평균 정확도가 1.32% 더 높고, 캐시 크기는 11.67배 줄이고, 처리량은 3.49배 향상되었습니다.
과학적 진보는 연구자들이 점점 더 많아지는 문헌 자료를 종합하는 능력에 달려있습니다. 대형 언어 모델(LMs)이 이 작업을 지원할 수 있을까요? 우리는 OpenScholar를 소개합니다. 이는 4,500만 개의 공개 논문에서 관련 단락을 식별하고 인용을 뒷받침한 답변을 종합하여 과학적 쿼리에 답변하는 특수한 검색 보강 LM입니다. OpenScholar를 평가하기 위해 우리는 ScholarQABench를 개발했습니다. 이는 컴퓨터 과학, 물리학, 신경과학 및 생명 과학 분야의 2,967개 전문가가 작성한 쿼리와 208개의 장문 답변을 포함하는 최초의 대규모 다양한 도메인 벤치마크입니다. ScholarQABench에서 OpenScholar-8B는 GPT-4o보다 5% 높은 정확도를 보이며 PaperQA2보다 7% 우수합니다. GPT-4o가 대부분의 시간 동안 인용을 환각하는 반면, OpenScholar는 인용 정확도 면에서 인간 전문가와 동등한 성과를 달성합니다. OpenScholar의 데이터 저장소, 검색기 및 자체 피드백 추론 루프는 기본 LMs를 개선합니다. 예를 들어, OpenScholar-GPT4o는 GPT-4o의 정확도를 12% 향상시킵니다. 전문가 평가에서 전문가들은 GPT4o의 32% 대비 OpenScholar-8B 및 OpenScholar-GPT4o 답변을 각각 51% 및 70% 선호했습니다. 우리는 모든 코드, 모델, 데이터 저장소, 데이터 및 공개 데모를 오픈 소스로 제공합니다.
대형 언어 모델(Large Language Models, LLMs)은 Chain-of-Thought 프롬프팅에서 OpenAI o1과 같은 제품 수준의 솔루션으로 진화함으로써 추론 능력과 신뢰성을 향상시키는 것을 보여줍니다. LLM 추론을 개선하기 위한 다양한 노력에도 불구하고, 시각-언어 작업에서 고품질의 장기 체인 추론 데이터와 최적화된 훈련 파이프라인은 여전히 충분히 탐구되지 않은 상태입니다. 본 논문에서는 복합 다중 모달 작업을 위해 장기적이고 견고한 추론 데이터를 확장 가능하게 생성하고, 다중 모달 대형 언어 모델(MLLMs)의 추론 능력을 향상시키기 위한 효과적인 훈련 파이프라인을 제시하는 Insight-V를 소개합니다. 구체적으로, 인간 노동 없이 긴 구조화된 추론 데이터를 생성하기 위해 진행적 전략으로 충분히 긴 다양한 추론 경로를 생성하고 데이터 품질을 보장하기 위한 다중 단계 평가 방법을 디자인한 두 단계 파이프라인을 설계합니다. 이러한 긴박하고 복잡한 추론 데이터로 MLLMs를 직접 감독하는 것은 이상적인 추론 능력을 얻지 못할 것임을 관찰합니다. 이 문제를 해결하기 위해 긴 체인 추론을 수행하는 추론 에이전트와 추론 결과를 판단하고 요약하는 요약 에이전트로 구성된 다중 에이전트 시스템을 디자인합니다. 또한 추론 에이전트의 생성 안정성과 품질을 향상시키기 위해 반복적 DPO 알고리즘을 통합합니다. 인기 있는 LLaVA-NeXT 모델과 강력한 기본 MLLM을 기반으로, Insight-V는 시각적 추론이 필요한 어려운 다중 모달 벤치마크에서 상당한 성능 향상을 보여줍니다. 다중 에이전트 시스템의 이점을 누리며, Insight-V는 인식 중심의 다중 모달 작업에서 성능을 유지하거나 향상시키기도 쉽습니다.
Transformer 모델의 성능은 매개변수 수와 계산 복잡성과 지수적으로 관련이 있다는 것이 널리 인정되고 있습니다. Mixture of Experts (MoE)와 같은 방법은 매개변수 수와 계산 복잡성을 분리하지만, 고비용의 메모리 액세스로 인해 추론에서 여전히 도전에 직면하고 있습니다. 본 연구는 이러한 제한 사항을 해결하기 위해 대규모의 초 희소 메모리 레이어를 통합한 UltraMem을 소개합니다. 저희 방법은 모델 성능을 유지하면서 추론 대기 시간을 크게 줄입니다. 또한 이 새로운 아키텍처의 스케일링 법칙을 조사하여, 유리한 스케일링 특성을 보이며 전통적인 모델을 능가함을 입증합니다. 실험에서는 최대 2000만 개의 메모리 슬롯을 갖는 네트워크를 훈련시켰습니다. 결과는 저희 방법이 주어진 계산 예산 내에서 최첨단 추론 속도와 모델 성능을 달성한다는 것을 보여줍니다.
확산 모델은 콘텐츠 합성 및 편집 분야를 혁신적으로 변화시켰다. 최근 모델들은 기존의 UNet 아키텍처를 확산 트랜스포머(DiT)로 대체하고, 향상된 훈련과 샘플링을 위해 플로우 매칭을 사용했다. 그러나 이러한 모델들은 생성 다양성이 제한적이다. 본 연구에서는 이 한계를 활용하여 주의 기능을 선택적으로 주입함으로써 일관된 이미지 편집을 수행한다. 주요 도전 과제는 UNet 기반 모델과 달리 DiT에는 곱삭한 종합 합성 구조가 없어 주입을 수행할 레이어가 명확하지 않다는 것이다. 따라서 DiT 내에서 이미지 형성에 중요한 "핵심 레이어"를 식별하는 자동 방법을 제안하고, 이러한 레이어가 비융통한 수정부터 객체 추가에 이르는 다양한 안정적인 편집 범위를 가능하게 하는 방법을 시연한다. 그 다음, 실제 이미지 편집을 가능하게 하기 위해 플로우 모델을 위한 개선된 이미지 역전 방법을 소개한다. 마지막으로 우리의 접근법을 질적 및 양적 비교, 사용자 연구를 통해 평가하고, 다양한 응용 분야에서의 효과를 시연한다. 프로젝트 페이지는 https://omriavrahami.com/stable-flow에서 확인할 수 있다.
본 논문에서는 IDEA Research가 개발한 DINO-X를 소개합니다. DINO-X는 현재까지 최고의 오픈 월드 객체 탐지 성능을 보유한 통합된 객체 중심 비전 모델입니다. DINO-X는 오픈 월드 객체 이해를 위해 Grounding DINO 1.5와 동일한 Transformer 기반 인코더-디코더 아키텍처를 사용합니다. 롱테일 객체 탐지를 용이하게 하기 위해 DINO-X는 텍스트 프롬프트, 비주얼 프롬프트 및 사용자 정의 프롬프트를 지원하는 입력 옵션을 확장했습니다. 이러한 유연한 프롬프트 옵션으로 우리는 프롬프트 없이 오픈 월드 탐지를 지원하는 범용 객체 프롬프트를 개발하여 사용자에게 어떠한 프롬프트도 제공하지 않고 이미지 내의 모든 것을 탐지할 수 있게 했습니다. 모델의 핵심 그라운딩 능력을 향상시키기 위해 우리는 Grounding-100M이라고 불리는 1억 개 이상의 고품질 그라운딩 샘플을 포함한 대규모 데이터셋을 구축했습니다. 이는 모델의 오픈 어휘 탐지 성능을 향상시키기 위한 것입니다. 이러한 대규모 그라운딩 데이터셋에서 사전 훈련을 진행함으로써 DINO-X에게 기반 객체 수준 표현을 제공하고, 여러 인식 헤드를 통합하여 동시에 여러 객체 인식 및 이해 작업을 지원할 수 있게 했습니다. 실험 결과는 DINO-X의 우수한 성능을 입증합니다. 특히 DINO-X Pro 모델은 COCO, LVIS-minival 및 LVIS-val 제로샷 객체 탐지 벤치마크에서 각각 56.0 AP, 59.8 AP 및 52.4 AP를 달성했습니다. LVIS-minival 및 LVIS-val 벤치마크의 희귀 클래스에서는 각각 63.3 AP 및 56.5 AP를 기록하여 이전 SOTA 성능을 5.8 AP 향상시켰습니다. 이러한 결과는 롱테일 객체를 인식하는 능력이 크게 향상되었음을 강조합니다.
대형 언어 모델에서의 환각은 널리 퍼져 있는 문제이지만, 모델이 환각을 할지 여부의 메커니즘은 잘 이해되지 않아 이 문제를 해결하는 능력이 제한되고 있다. 해석 가능성 도구로 희소 오토인코더를 사용하여, 이러한 메커니즘의 핵심 부분이 개체 인식인 것을 발견했다. 여기서 모델은 개체가 자신이 사실을 기억할 수 있는 개체인지 감지한다. 희소 오토인코더는 표현 공간에서 의미 있는 방향을 발견하며, 이러한 방향은 모델이 개체를 인식하는지 여부를 감지한다. 예를 들어, 모델이 운동 선수나 영화에 대해 알지 못한다는 것을 감지한다. 이는 모델이 자체 능력에 대한 내부 표현, 즉 자기 인식을 가질 수 있다는 것을 시사한다. 이러한 방향은 인과적으로 관련이 있으며, 알려진 개체에 대한 질문에 대답을 거부하도록 모델을 조종하거나, 그렇지 않으면 알려지지 않은 개체의 속성을 환각하도록 할 수 있다. 우리는 희소 오토인코더가 기본 모델에서 훈련되었음에도 불구하고, 이러한 방향이 채팅 모델의 거부 행동에 인과적 영향을 미치는 것을 증명하며, 채팅 파인튜닝이 기존 메커니즘을 재활용했음을 시사한다. 더 나아가, 우리는 모델에서 이러한 방향의 메커니스틱 역할에 대한 초기 탐구를 제공하며, 이 방향이 일반적으로 개체 속성을 최종 토큰으로 이동시키는 하류 헤드의 주의를 방해한다는 것을 발견했다.
확산 모델의 신속한 발전은 비디오 합성을 큤게 향상시켰으며, 특히 자율 주행과 같은 응용 프로그램에 필수적인 제어 가능한 비디오 생성에 있어서 그 효과를 발휘하고 있습니다. 그러나 기존 방법은 확장성과 제어 조건의 통합 방식에 제약을 받아 자율 주행 응용 프로그램에 대한 고해상도 및 장시간 비디오의 요구 사항을 충족시키지 못하고 있습니다. 본 논문에서는 DiT 아키텍처를 기반으로 한 혁신적인 접근 방식인 MagicDriveDiT를 소개하고 이러한 도전 과제에 대처합니다. 우리의 방법은 흐름 일치를 통해 확장성을 향상시키고 복잡한 시나리오를 관리하기 위해 점진적 훈련 전략을 채택합니다. 공간-시간 조건부 인코딩을 통합함으로써 MagicDriveDiT는 공간-시간 잠재 변수에 대한 정밀한 제어를 달성합니다. 포괄적인 실험에서 MagicDriveDiT는 고해상도 및 더 많은 프레임으로 현실적인 거리 장면 비디오를 생성하는 데 우수한 성능을 보여주었습니다. MagicDriveDiT는 비디오 생성 품질과 공간-시간 제어를 크게 향상시키며, 자율 주행의 다양한 작업 영역에 걸쳐 잠재적인 응용 가능성을 확대시킵니다.
기존의 피드 포워드 이미지-3D 변환 방법은 주로 3D 일관성을 보장할 수 없는 2D 다중 뷰 확산 모델에 의존합니다. 이러한 방법들은 프롬프트 뷰 방향을 변경할 때 쉽게 붕괴하며 주로 객체 중심의 프롬프트 이미지를 처리합니다. 본 논문에서는 단일 단계 3D 확산 모델인 DiffusionGS를 제안하여 단일 뷰로부터 객체 및 장면을 생성합니다. DiffusionGS는 각 타임스텝에서 3D 가우시안 포인트 클라우드를 직접 출력하여 뷰 일관성을 강화하고 객체 중심 입력을 넘어 어떤 방향의 프롬프트 뷰에서도 강력하게 생성할 수 있게 합니다. 또한 DiffusionGS의 성능과 일반화 능력을 향상시키기 위해 장면-객체 혼합 훈련 전략을 개발하여 3D 훈련 데이터를 확장합니다. 실험 결과, 우리의 방법은 PSNR에서 2.20 dB 더 높은 생성 품질과 FID에서 23.25 낮은 성과를 보이며 SOTA 방법보다 5배 이상 빠른 속도(~A100 GPU에서 6초)를 제공합니다. 사용자 연구 및 텍스트-3D 응용 프로그램은 또한 우리의 방법의 실용적 가치를 보여줍니다. 저희 프로젝트 페이지인 https://caiyuanhao1998.github.io/project/DiffusionGS/에서 비디오 및 대화식 생성 결과를 확인할 수 있습니다.
대규모 언어 모델(Large language models, LLMs)은 훈련 데이터의 한정으로 저자원 언어에서 성능이 저하됩니다. 저희는 전체 Common Crawl 코퍼스에서 저자원 언어의 텍스트 데이터를 효율적으로 수집하는 방법을 제시합니다. UnifiedCrawl이라는 접근 방식은 최소한의 계산 자원을 사용하여 Common Crawl을 필터링하고 추출하여 이전에 사용 가능했던 소스보다 훨씬 큰 단일 언어 데이터셋을 제공합니다. 우리는 이 데이터를 활용하여 다국어 LLMs를 효율적인 어댑터 방법(QLoRA)을 통해 세밀하게 조정함으로써 저자원 언어의 성능을 크게 향상시키고 VRAM 사용량을 최소화하는 것을 입증합니다. 실험 결과, 언어 모델링 퍼플렉서티가 크게 향상되었으며 적은 양의 프롬프팅 점수가 증가했습니다. 저희의 작업과 공개된 소스 코드는 소비자 하드웨어를 사용하여 저자원 언어용 LLMs를 개선하는 비용 효율적인 방법을 제공합니다. 저희의 소스 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/bethelmelesse/unifiedcrawl.
최근 대형 언어 모델 분야에서 Chain of Thought (CoT) 접근법을 통해 특히 뚜렷한 발전이 있었는데, 이는 복잡한 문제 해결에 상당한 향상을 보여주었습니다. 그러나 기존 모델들은 사용자 선호도로 인해 자세한 추론을 포기하거나, 복잡한 추론 능력을 배우기 위해 방대하고 비싼 훈련 데이터가 필요하여 복잡한 작업 해결 가능성이 제한되는 경향이 있습니다. 이 간극을 좁히기 위해, 테스트 시 스케일링 개념을 따라, 새로운 지식이나 기술을 도입할 필요 없이 모델이 더 근면한 추론 스타일을 채택하도록 하는 간단한 방법을 제안합니다. 선호도 최적화 접근법을 적용하기 위해, 상세한 추론 과정을 긍정적 예로 생성하고 간단한 답변을 부정적 예로 사용하여 모델이 응답에서 철저함을 선호하도록 훈련시킵니다. 결과는 경량 데이터셋에서 훈련한 결과로 GSM8k에서 최대 6.7%의 성능 향상을 보여주었습니다.