번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)은 인공 일반 지능(AGI)을 위한 필수 인프라로 자리 잡았지만, 명확하게 정의된 메모리 관리 시스템의 부재로 인해 장기적 맥락 추론, 지속적 개인화, 그리고 지식 일관성의 발전이 저해되고 있다. 기존 모델들은 주로 정적 매개변수와 단기적인 맥락 상태에 의존하여, 사용자 선호도를 추적하거나 장기간에 걸쳐 지식을 업데이트하는 능력이 제한적이다. 검색 증강 생성(RAG)은 일반 텍스트 형태의 외부 지식을 도입하지만, 이는 생명주기 제어나 지속적 표현과의 통합이 없는 상태 비저장형 임시 해결책에 불과하다. 최근 연구에서는 메모리 계층 구조 관점에서 LLM의 학습 및 추론 비용을 모델링하여, 매개변수 메모리와 외부 검색 사이에 명시적 메모리 계층을 도입함으로써 특정 지식을 외부화하여 이러한 비용을 상당히 줄일 수 있음을 보여주었다. 계산 효율성 외에도, LLM은 시간과 맥락에 걸쳐 정보가 분포되는 방식에서 발생하는 더 넓은 도전 과제에 직면해 있으며, 이는 다양한 시간적 규모와 출처에 걸친 이질적 지식을 관리할 수 있는 시스템을 필요로 한다. 이러한 도전 과제를 해결하기 위해, 우리는 메모리를 관리 가능한 시스템 자원으로 취급하는 메모리 운영 체제(MemOS)를 제안한다. MemOS는 일반 텍스트, 활성화 기반, 그리고 매개변수 수준의 메모리를 통합적으로 표현, 스케줄링, 진화시켜 비용 효율적인 저장 및 검색을 가능하게 한다. 기본 단위인 MemCube는 메모리 내용과 출처, 버전 관리와 같은 메타데이터를 모두 캡슐화한다. MemCube는 시간에 따라 구성, 이동, 융합될 수 있어, 메모리 유형 간의 유연한 전환을 가능하게 하고 검색과 매개변수 기반 학습을 연결한다. MemOS는 메모리 중심의 시스템 프레임워크를 구축하여 LLM에 제어 가능성, 가소성, 그리고 진화 가능성을 부여함으로써, 지속적 학습과 개인화된 모델링의 기반을 마련한다.
고품질 텍스트 표현을 학습하는 것은 다양한 NLP 작업의 기초가 됩니다. 전통적으로 인코더 사전 학습은 마스크드 언어 모델링(Masked Language Modeling, MLM)에 의존해 왔지만, 최근 연구에 따르면 인과적 언어 모델링(Causal Language Modeling, CLM)으로 사전 학습된 디코더 모델이 인코더로 효과적으로 재사용될 수 있으며, 종종 텍스트 표현 벤치마크에서 전통적인 인코더를 능가하는 것으로 나타났습니다. 그러나 이러한 성능 향상이 CLM 목표 함수의 고유한 장점을 반영하는 것인지, 아니면 모델 및 데이터 규모와 같은 혼동 요인에서 비롯된 것인지는 여전히 명확하지 않습니다. 본 논문에서는 이 질문에 답하기 위해 대규모의 신중하게 통제된 사전 학습 실험을 통해 2억 1천만에서 10억 파라미터에 이르는 총 30개의 모델을 학습하고, 15,000회 이상의 미세 조정 및 평가를 수행했습니다. 우리는 MLM으로 학습한 모델이 일반적으로 텍스트 표현 작업에서 더 나은 성능을 보이지만, CLM으로 학습한 모델은 데이터 효율성이 더 높고 미세 조정 안정성이 개선된 것을 발견했습니다. 이러한 발견을 바탕으로, CLM을 먼저 적용한 후 MLM을 순차적으로 적용하는 이중 단계 학습 전략이 고정된 계산 예산 내에서 최적의 성능을 달성함을 실험적으로 보여줍니다. 또한, 이 전략은 기존의 대규모 언어 모델(LLM) 생태계에서 쉽게 사용할 수 있는 사전 학습된 CLM 모델로 초기화할 때 더욱 매력적이 되며, 최고 수준의 인코더 모델을 학습하는 데 필요한 계산 부담을 줄이는 것을 입증했습니다. 우리는 추가 연구를 촉진하기 위해 모든 프로젝트 아티팩트를 https://hf.co/MLMvsCLM에서 공개합니다.
언어 에이전트가 점점 더 복잡한 작업을 다루면서, 효과적인 오류 수정과 도메인 간 경험 재사용에 어려움을 겪고 있습니다. 우리는 이러한 문제를 해결하기 위해 Agent KB라는 계층적 경험 프레임워크를 소개합니다. 이 프레임워크는 새로운 Reason-Retrieve-Refine 파이프라인을 통해 복잡한 에이전트 문제 해결을 가능하게 합니다. Agent KB는 전통적으로 에이전트들이 서로의 경험을 학습할 수 없다는 핵심적인 한계를 해결합니다. 고수준 전략과 상세한 실행 로그를 모두 포착함으로써, Agent KB는 에이전트 간 지식 전달을 가능하게 하는 공유 지식 기반을 구축합니다. GAIA 벤치마크에서 평가한 결과, Agent KB는 성공률을 최대 16.28%포인트 향상시켰습니다. 가장 어려운 작업에서 Claude-3는 38.46%에서 57.69%로, GPT-4는 중간 수준 작업에서 53.49%에서 73.26%로 성능이 개선되었습니다. SWE-bench 코드 수정 작업에서는 Agent KB가 Claude-3의 성능을 41.33%에서 53.33%로 향상시켰습니다. 우리의 결과는 Agent KB가 에이전트들이 과거 경험을 학습하고 성공적인 전략을 새로운 작업에 일반화할 수 있도록 모듈화된 프레임워크-불문 인프라를 제공한다는 것을 시사합니다.
대규모 언어 모델(LLMs)은 일반적인 작업에서 인상적인 성능을 보여주고 있지만, 특정 도메인에 적용하는 것은 고품질 도메인 데이터의 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 기존의 데이터 합성 도구들은 이질적인 문서에서 신뢰할 수 있는 미세 조정 데이터를 효과적으로 추출하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 직관적인 그래픽 사용자 인터페이스(GUI)를 통해 비정형 문서에서 미세 조정 데이터를 합성하기 위한 통합 프레임워크인 Easy Dataset을 제안합니다. 구체적으로, Easy Dataset은 사용자가 텍스트 추출 모델과 청킹 전략을 쉽게 구성하여 원시 문서를 일관된 텍스트 청크로 변환할 수 있도록 합니다. 그런 다음, 공개된 LLMs를 사용하여 다양한 질문-답변 쌍을 생성하기 위해 페르소나 기반 프롬프팅 접근 방식을 활용합니다. 전체 파이프라인에서 인간이 참여하는 시각적 인터페이스는 중간 출력물을 검토하고 개선하여 데이터 품질을 보장합니다. 금융 질문-답변 작업에 대한 실험 결과, 합성된 데이터셋으로 LLMs를 미세 조정하면 도메인 특화 성능이 크게 향상되면서도 일반 지식을 유지할 수 있음을 보여줍니다. 소스 코드와 설치 가능한 패키지는 https://github.com/ConardLi/easy-dataset에서 확인할 수 있으며, 9,000개 이상의 GitHub 스타를 받았습니다.
최근 비전-언어-행동(Vision-Language-Action, VLA) 모델의 발전은 이미지 생성과 행동 예측을 통합하여 로봇 조작에서의 일반화 및 추론 능력을 향상시킬 가능성을 보여주고 있습니다. 그러나 기존 방법들은 중복 정보를 포함하고 동적, 공간적, 의미적 정보를 포함한 포괄적이고 중요한 세계 지식이 부족한 도전적인 이미지 기반 예측에 국한되어 있습니다. 이러한 한계를 해결하기 위해, 우리는 포괄적인 세계 지식 예측을 통합하여 역동적 모델링을 가능하게 하는 새로운 VLA 프레임워크인 DreamVLA를 제안합니다. 이를 통해 조작 작업을 위한 인지-예측-행동 루프를 구축합니다. 구체적으로, DreamVLA는 동적 영역 기반 세계 지식 예측을 공간적 및 의미적 단서와 통합하여, 행동 계획을 위한 간결하면서도 포괄적인 표현을 제공합니다. 이 설계는 인간이 행동하기 전에 추상적인 다중 모드 추론 체인을 형성하는 방식과 일치합니다. 훈련 중 동적, 공간적, 의미적 정보 간의 간섭을 완화하기 위해, 우리는 상호 주의를 마스킹하여 정보 누출을 방지하고 각 표현을 깨끗하고 분리된 상태로 유지하는 블록 구조화된 주의 메커니즘을 채택합니다. 또한, 미래 행동에 대한 조건부 분포를 모델링하기 위해, 공유 잠재 특성에서 행동 표현을 분리하는 확산 기반 트랜스포머를 사용합니다. 실제 환경과 시뮬레이션 환경에서의 광범위한 실험을 통해, DreamVLA가 실제 로봇 작업에서 76.7%의 성공률과 CALVIN ABC-D 벤치마크에서 4.44의 평균 길이를 달성함을 입증했습니다.
고속 동적 장면을 다중 시점 비디오로부터 재구성하는 것은 고속 동작 분석과 사실적인 4D 재구성에 있어 매우 중요합니다. 그러나 대부분의 4D 캡처 시스템은 초당 30프레임(FPS) 이하로 제한되어 있으며, 저프레임률 입력으로부터 고속 동작을 직접 4D 재구성하는 것은 바람직하지 않은 결과를 초래할 수 있습니다. 본 연구에서는 저프레임률 카메라만을 사용하여 고속 4D 캡처 시스템을 제안하며, 이를 위해 새로운 캡처 및 처리 모듈을 도입합니다. 캡처 측면에서는 카메라의 시작 시간을 엇갈리게 하여 유효 프레임률을 증가시키는 비동기식 캡처 방식을 제안합니다. 카메라를 그룹화하고 기본 프레임률 25 FPS를 활용함으로써, 특수한 고속 카메라 없이도 100-200 FPS에 해당하는 프레임률을 달성합니다. 처리 측면에서는 비동기화로 인해 각 타임스탬프에서의 시점 수가 감소함에 따라 발생하는 4D 희소 시점 재구성의 아티팩트를 수정하기 위한 새로운 생성 모델을 제안합니다. 구체적으로, 희소 4D 재구성을 위한 비디오-확산 기반 아티팩트 수정 모델을 학습하여 누락된 세부 사항을 보완하고, 시간적 일관성을 유지하며, 전반적인 재구성 품질을 향상시킵니다. 실험 결과는 제안된 방법이 동기식 캡처에 비해 고속 4D 재구성을 크게 개선함을 보여줍니다.
본 연구에서는 보상 모델링에 대한 새로운 관점을 제시하며, 이를 정책 판별기로 공식화하여 두 정책 간의 차이를 정량화하고 이를 통해 보상 신호를 생성함으로써, 훈련 정책이 원하는 행동을 보이는 목표 정책으로 향하도록 유도합니다. 이러한 개념적 통찰을 바탕으로, 우리는 정책 판별 학습(Policy Discriminative Learning, POLAR)이라는 확장 가능한 사전 훈련 방법을 제안합니다. POLAR는 보상 모델(Reward Model, RM)을 훈련시켜 동일한 정책을 식별하고 다른 정책을 구별하도록 합니다. 절대적 선호도에 의존하는 전통적인 보상 모델링 방법과 달리, POLAR는 하나의 정책과 임의의 목표 정책 간의 상대적 차이를 포착하며, 이는 일반적인 순위 관계를 모델링하기에 적합한 확장 가능한 고수준 최적화 목표입니다. POLAR 사전 훈련 패러다임을 활용하여, 우리는 1.8B에서 7B에 이르는 다양한 파라미터 규모의 RM 시리즈를 제시합니다. 실험 결과는 POLAR가 전통적인 사전 훈련되지 않은 방법들을 크게 능가하며, RM 성능을 크게 향상시킴을 보여줍니다. 예를 들어, POLAR-7B는 STEM 작업에서 선호도 정확도를 54.8%에서 81.0%로, 창의적 글쓰기 작업에서는 57.9%에서 85.5%로 향상시켰습니다. 또한 POLAR는 강화 미세 조정(Reinforcement Fine-tuning, RFT)을 사용한 RLHF에서도 강력한 일반화 능력을 보이며, 신뢰할 수 있는 보상 신호를 제공하고 정책 성능을 크게 향상시켰습니다. LLaMa3.1-8B의 평균 성능을 47.36%에서 56.33%로, Qwen2.5-32B의 성능을 64.49%에서 70.47%로 개선했습니다. 더불어, 스케일링 실험은 계산과 성능 간의 명확한 멱법칙 관계를 보여주며, 선형 상관 계수가 0.99에 근접함을 확인했습니다. 이러한 인상적인 성능, 강력한 일반화 능력, 그리고 스케일링 특성은 POLAR가 일반적이고 강력한 보상 모델을 개발하기 위한 유망한 방향임을 시사합니다.
물리적 환경에서 복잡한 구체적 작업을 위한 인지, 추론, 계획을 통합하도록 설계된 최신 세대의 구체적 비전-언어 기반 모델인 RoboBrain 2.0을 소개합니다. 이 모델은 경량 7B 버전과 전체 규모 32B 버전의 두 가지 변형으로 제공되며, 비전 인코더와 언어 모델로 구성된 이기종 아키텍처를 특징으로 합니다. RoboBrain 2.0은 컴팩트한 크기임에도 불구하고 다양한 구체적 추론 작업에서 강력한 성능을 달성합니다. 공간적 및 시간적 벤치마크에서 32B 변형은 기존의 오픈소스 및 독점 모델을 능가하는 선두적인 결과를 보여줍니다. 특히, 이 모델은 공간 이해(예: 어포던스 예측, 공간 참조, 궤적 예측) 및 시간적 의사결정(예: 폐루프 상호작용, 다중 에이전트 장기 계획, 장면 그래프 업데이트)을 포함한 핵심 실세계 구체적 AI 기능을 지원합니다. 본 보고서는 모델 아키텍처, 데이터 구성, 다단계 학습 전략, 인프라 및 실제 응용 사례를 상세히 설명합니다. RoboBrain 2.0이 구체적 AI 연구를 발전시키고 일반적인 구체적 에이전트 구축을 위한 실질적인 단계로 기여하기를 바랍니다. 코드, 체크포인트 및 벤치마크는 https://superrobobrain.github.io에서 확인할 수 있습니다.
최근, 수십억 개의 파라미터로 확장된 트랜스포머 기반의 확산 모델을 통해 텍스트-투-비디오(T2V) 생성 분야에서 큰 진전이 이루어졌으며, 이를 통해 고품질의 비디오를 생성할 수 있게 되었습니다. 그러나 기존 모델들은 일반적으로 오프라인에서 짧은 클립만을 생성할 수 있어, 상호작용적이고 실시간 애플리케이션에서의 사용이 제한적이었습니다. 본 논문은 이러한 문제를 해결하기 위해 스트리밍 비디오 생성 모델인 StreamDiT를 제안합니다. StreamDiT의 학습은 이동 버퍼를 추가한 흐름 매칭(flow matching)을 기반으로 합니다. 우리는 버퍼링된 프레임의 다양한 분할 방식을 혼합하여 학습을 설계함으로써 콘텐츠 일관성과 시각적 품질을 모두 향상시켰습니다. StreamDiT 모델링은 다양한 시간 임베딩과 윈도우 어텐션을 적용한 adaLN DiT를 기반으로 합니다. 제안된 방법을 실험하기 위해, 우리는 4B 파라미터를 가진 StreamDiT 모델을 학습시켰습니다. 또한, StreamDiT에 적합한 다단계 증류 방법을 제안합니다. 증류는 선택된 분할 방식의 각 세그먼트에서 샘플링 증류를 수행하며, 증류 후에는 전체 함수 평가 횟수(NFEs)가 버퍼의 청크 수로 줄어듭니다. 최종적으로, 우리의 증류된 모델은 단일 GPU에서 16 FPS의 실시간 성능을 달성하며, 512p 해상도의 비디오 스트림을 생성할 수 있습니다. 우리는 제안된 방법을 정량적 지표와 인간 평가를 통해 평가했습니다. 우리의 모델은 스트리밍 생성, 상호작용적 생성, 비디오-투-비디오와 같은 실시간 애플리케이션을 가능하게 합니다. 비디오 결과와 더 많은 예시는 프로젝트 웹사이트(<a href="https://cumulo-autumn.github.io/StreamDiT/">이 https URL</a>)에서 확인할 수 있습니다.
본 논문에서는 대규모 다중모달 모델(LMMs)의 개발 및 평가를 위해 커뮤니티에 제공할 대규모 이중언어, 다중모달, 다학제적 추론 데이터셋인 BMMR을 소개한다. BMMR은 300개의 UNESCO 정의 주제에 걸친 110,000개의 대학 수준 질문으로 구성되어 있으며, 다양한 형식(객관식, 빈칸 채우기, 자유형 질의응답)을 포함하고 책, 시험, 퀴즈 등 인쇄 및 디지털 매체에서 수집되었다. 모든 데이터는 인간 참여형 및 확장 가능한 프레임워크를 통해 선별 및 필터링되었으며, 각 인스턴스는 고품질의 추론 경로와 짝지어져 있다. 이 데이터셋은 두 부분으로 구성된다: BMMR-Eval은 중국어와 영어로 다양한 학문 분야에 걸친 LMMs의 지식과 추론 능력을 종합적으로 평가하기 위한 20,458개의 고품질 인스턴스를 포함하며, BMMR-Train은 현재의 수학적 추론 중심에서 다양한 학문 및 도메인으로 연구와 개발을 확장하기 위한 88,991개의 인스턴스를 제공한다. 또한, 정확하고 세밀한 추론 경로 평가를 위한 과정 기반 다학제 검증기(BMMR-Verifier)를 제안한다. 24개 모델에 대한 광범위한 실험 결과, (i) 최신 모델(예: o3 및 Gemini-2.5-Pro)도 BMMR-Eval에서 상당한 개선 여지가 있음, (ii) 추론 모델은 학문적 편향을 보이며 특정 주제에서만 LMMs를 능가함, (iii) 오픈소스 모델은 여전히 상용 모델에 뒤처짐, (iv) BMMR-Train에 대한 미세 조정은 이 격차를 줄임을 확인하였다. 또한, BMMR-Verifier 및 기타 심층 연구를 통해 LMMs가 현재 다학제적 추론에서 직면한 도전 과제를 밝혀냈다. 데이터를 공개할 예정이며, 본 연구가 커뮤니티에 통찰과 기여를 제공하기를 바란다.
대규모 언어 모델(LLM)의 기본적인 역량은 사전 학습 코퍼스의 품질에 깊은 영향을 받습니다. 그러나 대규모 데이터 품질 향상은 정제 효과와 처리 효율성 간의 상충 관계로 인해 여전히 큰 과제로 남아 있습니다. 규칙 기반 필터링이 여전히 주된 패러다임이지만, 이는 일반적으로 문서 수준에서 작동하며 문서 내 특정 콘텐츠를 세밀하게 정제하는 데 필요한 세분성을 제공하지 못합니다. ProX와 같은 최신 연구에서 영감을 받아, 우리는 프로그램적 편집 작업을 통해 대규모 사전 학습 데이터를 세밀하게 정제하는 새로운 프레임워크인 RefineX를 제안합니다. RefineX는 원시 텍스트의 다양성과 자연스러움을 안정적으로 보존하면서도 효율적이고 세밀한 데이터 정제를 가능하게 합니다. RefineX의 핵심 강점은 고품질의 전문가 지도 하에 이루어진 종단 간 정제 결과를 최소한의 편집 기반 삭제 프로그램으로 정제하는 데 있습니다. 이 고정밀 정제 파이프라인은 코퍼스 내 모든 인스턴스를 대규모로 체계적으로 개선할 수 있는 효율적이고 신뢰할 수 있는 정제 모델을 훈련하는 데 사용됩니다. 우리는 RefineX를 다양한 모델 규모에서 처음부터 사전 학습을 통해 평가했으며, 이는 다양한 다운스트림 작업에서 원시 데이터, 필터링된 데이터 또는 다른 방식으로 정제된 데이터로 훈련된 모델을 일관되게 능가하는 것으로 나타났습니다. 750M 모델에서 RefineX는 lighteval 작업에서 평균 2.6%-7.2%의 성능 향상을 보였으며, 훨씬 적은 훈련 토큰을 사용하면서도 비슷한 성능을 달성했습니다. 추가 분석은 RefineX가 높은 효율성과 정밀도로 텍스트 품질을 안정적으로 향상시키며, 종단 간 생성 및 Prox-C와 같은 기존 접근법을 능가한다는 것을 보여줍니다. 이러한 결과는 RefineX를 현대 LLM 파이프라인에서 사전 학습 데이터를 최적화하기 위한 확장 가능하고 효과적이며 신뢰할 수 있는 솔루션으로 자리매김합니다.
멀티모달 임베딩 모델은 다양한 모달리티에 걸친 의미적 유사성, 정보 검색, 클러스터링과 같은 다양한 다운스트림 작업을 가능하게 하는 데 중요한 역할을 해왔다. 그러나 VLM2Vec, E5-V, GME와 같은 기존의 멀티모달 임베딩은 주로 자연 이미지에 초점을 맞추고 있으며, 비디오 및 시각 문서와 같은 다른 시각적 형태에 대한 지원이 제한적이다. 이는 AI 에이전트, 멀티모달 검색 및 추천, 검색 강화 생성(RAG)과 같은 실제 시나리오에서의 적용 가능성을 제한한다. 이러한 격차를 해소하기 위해, 우리는 다양한 시각적 형태에 걸친 임베딩 학습을 위한 통합 프레임워크인 VLM2Vec-V2를 제안한다. 먼저, MMEB를 확장한 포괄적인 벤치마크인 MMEB-V2를 소개한다. MMEB-V2는 시각 문서 검색, 비디오 검색, 시간적 근거, 비디오 분류 및 비디오 질문 응답이라는 다섯 가지 새로운 작업 유형을 추가하여 텍스트, 이미지, 비디오, 시각 문서 입력을 아우른다. 다음으로, 텍스트, 이미지, 비디오, 시각 문서 입력을 지원하는 범용 임베딩 모델인 VLM2Vec-V2를 학습시킨다. 광범위한 실험을 통해 VLM2Vec-V2는 새로 도입된 비디오 및 문서 검색 작업에서 강력한 성능을 보일 뿐만 아니라, 기존 이미지 벤치마크에서도 이전 기준선을 개선함을 보여준다. 광범위한 평가를 통해, 우리의 연구는 다양한 멀티모달 임베딩 모델의 일반화 가능성에 대한 통찰을 제공하고, 통합 임베딩 학습을 위한 효과적인 전략을 강조함으로써 연구 및 실제 환경에서 더 확장 가능하고 적응 가능한 표현 학습의 기반을 마련한다.
우리는 시각 임베딩 모델이 _순위 축(rank axes)_이라 명명한 선형 방향을 따라 연속적이고 순서적인 속성을 포착하는지 연구한다. 특정 속성에 대해 임베딩을 이러한 축에 투영했을 때 속성의 순서가 보존된다면, 그 모델을 해당 속성에 대해 _순위화 가능(rankable)_하다고 정의한다. 나이, 군중 수, 머리 포즈, 미학, 최신성과 같은 속성을 가진 9개의 데이터셋과 7개의 인기 있는 인코더를 대상으로 분석한 결과, 많은 임베딩이 본질적으로 순위화 가능함을 발견했다. 놀랍게도, 소수의 샘플 또는 단 두 개의 극단적인 예시만으로도 의미 있는 순위 축을 복원할 수 있으며, 이는 대규모 감독 없이도 가능하다. 이러한 발견은 벡터 데이터베이스에서 이미지 순위화의 새로운 활용 가능성을 열어주며, 순위화 가능한 임베딩의 구조와 학습에 대한 추가 연구를 촉진한다. 우리의 코드는 https://github.com/aktsonthalia/rankable-vision-embeddings에서 확인할 수 있다.
추론적 디코딩(speculative decoding)은 일반적으로 사전 학습되었거나 특정 대상 모델 시리즈(예: Llama 또는 Qwen 모델)로 오프라인에서 증류된 작고 효율적인 드래프트 모델을 사용하는 것을 전제로 한다. 그러나 온라인 배포 환경에서는 두 가지 주요 과제가 존재한다: 1) 드래프트 모델과 호환되지 않는 대상 모델의 사용; 2) 사용 및 시간에 따른 지연 시간 개선에 대한 기대. 본 연구에서는 단일 드래프트 모델이 모든 대상 모델과 함께 작동하고 사용자 데이터에 동적으로 적응할 수 있도록 하는 통합 프레임워크인 OmniDraft를 제안한다. 우리는 드래프트 모델과 대상 모델 간의 어휘 불일치를 해결하기 위해 하이브리드 증류 미세 조정(hybrid distillation fine-tuning)을 포함한 온라인 n-그램 캐시를 도입하고, 적응형 드래프팅 기술을 활용하여 디코딩 속도를 더욱 개선한다. OmniDraft는 모델 비용, 효율성 및 사용자 맞춤화가 주요 쟁점인 온디바이스 LLM 애플리케이션에 특히 적합하다. 이는 위의 과제를 해결할 필요성을 강조하고 "하나의 드래프터로 모든 모델을 지원"하는 패러다임을 촉진한다. 우리는 수학 추론, 코딩 및 텍스트 생성 작업에 대한 온라인 학습을 수행하여 OmniDraft 프레임워크의 능력을 입증한다. 특히, OmniDraft는 단일 Llama-68M 모델이 Vicuna-7B, Qwen2-7B 및 Llama3-8B 모델을 포함한 다양한 대상 모델과 함께 추론적 디코딩을 수행할 수 있도록 하며, 추가적으로 최대 1.5-2배의 속도 향상을 제공한다.
역사 문서는 귀중한 문화유산을 대표하지만, 시간이 지남에 따라 찢김, 수침, 산화 등의 심각한 훼손을 겪어 왔습니다. 기존의 역사 문서 복원(HDR) 방법들은 주로 단일 양식이나 제한된 크기의 복원에 초점을 맞추고 있어 실질적인 요구를 충족시키지 못하고 있습니다. 이러한 격차를 메우기 위해, 우리는 전체 페이지 HDR 데이터셋(FPHDR)과 새로운 자동화된 HDR 솔루션(AutoHDR)을 제안합니다. 구체적으로, FPHDR은 1,633개의 실제 이미지와 6,543개의 합성 이미지로 구성되어 있으며, 문자 수준과 줄 수준의 위치 정보와 다양한 손상 등급의 문자 주석을 포함하고 있습니다. AutoHDR은 역사학자들의 복원 작업 흐름을 세 단계 접근법으로 모방합니다: OCR 지원 손상 위치 파악, 시각-언어 컨텍스트 텍스트 예측, 패치 자동회귀 외관 복원. AutoHDR의 모듈식 아키텍처는 각 복원 단계에서 유연한 개입과 최적화를 가능하게 하여 원활한 인간-기계 협업을 지원합니다. 실험 결과, AutoHDR은 HDR에서 뛰어난 성능을 보여줍니다. 심각하게 손상된 문서를 처리할 때, 우리의 방법은 OCR 정확도를 46.83\%에서 84.05\%로 향상시키며, 인간-기계 협업을 통해 이를 94.25\%로 더욱 개선합니다. 우리는 이 작업이 자동화된 역사 문서 복원 분야에서 중요한 진전을 이루었으며, 문화유산 보존에 크게 기여할 것이라고 믿습니다. 모델과 데이터셋은 https://github.com/SCUT-DLVCLab/AutoHDR에서 확인할 수 있습니다.
최근 대형 언어 모델(LLM) 에이전트를 평가하는 벤치마크는 주로 추론, 계획 및 실행 능력에 초점을 맞추고 있으며, 에이전트가 장기 정보를 기억하고 업데이트하며 검색하는 방식인 메모리라는 중요한 요소는 벤치마크의 부재로 인해 충분히 평가되지 않고 있다. 본 논문에서는 메모리 메커니즘을 갖춘 에이전트를 메모리 에이전트로 정의한다. 이 연구에서는 메모리 에이전트에게 필수적인 네 가지 핵심 역량, 즉 정확한 검색, 테스트 시간 학습, 장거리 이해, 그리고 갈등 해결을 식별한다. 기존 데이터셋은 제한된 컨텍스트 길이에 의존하거나 책 기반 질의응답과 같은 정적이고 긴 컨텍스트 설정에 맞춰져 있어, 점진적으로 정보를 축적하는 메모리 에이전트의 상호작용적이고 다중 턴의 특성을 반영하지 못한다. 또한, 기존 벤치마크는 이 네 가지 역량을 모두 포괄하지 않는다. 따라서 본 논문에서는 메모리 에이전트를 위해 특별히 설계된 새로운 벤치마크인 MemoryAgentBench을 소개한다. 이 벤치마크는 기존 데이터셋을 재구성하고 새로 구축한 데이터셋을 결합하여 위의 네 가지 메모리 역량을 모두 다루며, 메모리 품질을 평가하기 위한 체계적이고 도전적인 테스트베드를 제공한다. 단순한 컨텍스트 기반 및 검색 증강 생성(RAG) 시스템부터 외부 메모리 모듈과 도구 통합을 갖춘 고급 에이전트까지 다양한 메모리 에이전트를 평가한다. 실험 결과는 현재의 방법들이 네 가지 역량을 모두 숙달하는 데 미치지 못함을 보여주며, LLM 에이전트를 위한 포괄적인 메모리 메커니즘에 대한 추가 연구의 필요성을 강조한다.
Neural Radiance Field (NeRF) 기반 분할 방법은 객체 의미론에 초점을 맞추며 RGB 데이터에만 의존하기 때문에 내재적 물질 특성을 결여하고 있다. 이러한 한계는 로보틱스, 증강 현실, 시뮬레이션 및 기타 응용 분야에서 중요한 정확한 물질 인식을 제한한다. 본 연구에서는 스펙트럼 언믹싱을 NeRF에 통합하여 하이퍼스펙트럴 새로운 시점 합성과 비지도 물질 분할을 동시에 가능하게 하는 UnMix-NeRF 프레임워크를 소개한다. 우리의 방법은 확산 및 정반사 성분을 통해 스펙트럼 반사율을 모델링하며, 학습된 전역 엔드멤버 사전은 순수 물질 서명을 나타내고, 점별 풍부도는 이들의 분포를 포착한다. 물질 분할을 위해 학습된 엔드멤버를 따라 스펙트럼 서명 예측을 사용하여 비지도 물질 클러스터링을 가능하게 한다. 또한, UnMix-NeRF는 학습된 엔드멤버 사전을 수정하여 유연한 물질 기반 외관 조작을 가능하게 한다. 광범위한 실험을 통해 우리의 접근 방식이 기존 방법들에 비해 우수한 스펙트럼 재구성 및 물질 분할 성능을 보임을 입증한다. 프로젝트 페이지: https://www.factral.co/UnMix-NeRF.
본 논문에서는 장문의 문서를 내레이션이 포함된 프레젠테이션 비디오로 변환하는 다중모달 에이전트인 PresentAgent를 소개한다. 기존의 접근 방식이 정적인 슬라이드나 텍스트 요약 생성에 국한된 반면, 본 연구의 방법은 인간 스타일의 프레젠테이션을 모방한 완전히 동기화된 시각 및 음성 콘텐츠를 생성함으로써 이러한 한계를 극복한다. 이러한 통합을 달성하기 위해 PresentAgent는 입력 문서를 체계적으로 분할하고, 슬라이드 스타일의 시각적 프레임을 계획 및 렌더링하며, 대규모 언어 모델과 텍스트-음성 변환 모델을 활용하여 문맥에 맞는 음성 내레이션을 생성하고, 정확한 오디오-비주얼 정렬을 통해 최종 비디오를 완성하는 모듈식 파이프라인을 사용한다. 이러한 다중모달 출력물의 평가 복잡성을 고려하여, 본 연구는 Vision-Language Models에 기반한 통합 평가 프레임워크인 PresentEval을 도입한다. 이 프레임워크는 프롬프트 기반 평가를 통해 콘텐츠 충실도, 시각적 명확성, 청중 이해도라는 세 가지 중요한 차원에서 비디오를 포괄적으로 점수화한다. 30개의 문서-프레젠테이션 쌍으로 구성된 데이터셋에 대한 실험적 검증을 통해 PresentAgent가 모든 평가 지표에서 인간 수준의 품질에 근접함을 입증한다. 이러한 결과는 정적인 텍스트 자료를 동적이고 효과적이며 접근 가능한 프레젠테이션 형식으로 변환하는 데 있어 제어 가능한 다중모달 에이전트의 상당한 잠재력을 강조한다. 코드는 https://github.com/AIGeeksGroup/PresentAgent에서 제공될 예정이다.
대규모 언어 모델(LLMs)의 생성 능력은 정적 코드에서 동적이고 상호작용 가능한 시각적 아티팩트로 빠르게 확장되고 있습니다. 이러한 진전은 중요한 평가 격차에 의해 병목 현상을 겪고 있습니다: 기존 벤치마크는 알고리즘적 정확성에 초점을 맞추고 있으며, 현대 사용자 경험을 정의하는 시각적 충실도와 상호작용 무결성을 간과하고 있습니다. 이 격차를 해소하기 위해, 우리는 시각적 코드 생성을 위한 자동화된 다중 모드 평가를 위한 새로운 벤치마크 및 패러다임인 ArtifactsBench를 소개합니다. 우리의 프레임워크는 생성된 각 아티팩트를 프로그래밍 방식으로 렌더링하고 시간적 스크린샷을 통해 동적 행동을 포착합니다. 이 시각적 증거는 소스 코드와 함께 다중 모드 LLM(MLLM)-as-Judge에 의해 평가되며, 이는 전체적이고 재현 가능한 점수를 보장하기 위해 세분화된 작업별 체크리스트에 의해 엄격하게 안내됩니다. 우리는 1,825개의 다양한 작업으로 구성된 새로운 벤치마크를 구축하고 30개 이상의 주요 LLM을 평가합니다. 우리의 자동화된 평가는 웹 개발에서 인간 선호도의 금본위제인 WebDev Arena와 94.4%의 놀라운 순위 일관성을 달성했으며, 인간 전문가와 90% 이상의 쌍별 일치를 보였습니다. 이는 ArtifactsBench를 인간이 인지한 품질의 대규모 평가를 신뢰할 수 있게 자동화한 첫 번째 프레임워크로 확립합니다. 우리의 분석은 현재 SOTA(State-of-the-Art)의 고해상도 지도를 제공하며, 일반 모델이 종종 도메인 특화 모델을 능가한다는 사실을 밝혀냅니다. 우리는 ArtifactsBench를 오픈소스로 공개하며, 벤치마크, 평가 도구 및 기준 결과를 https://artifactsbenchmark.github.io/에서 제공하여 커뮤니티에 사용자 중심 생성 모델 개발을 가속화할 수 있는 확장 가능하고 정확한 도구를 제공합니다.
배경: 임상 문서화는 의료 제공자에게 상당한 부담으로 작용하며, 의사들은 하루에 최대 2시간을 행정 업무에 소비합니다. 최근 대형 언어 모델(LLM)의 발전은 유망한 해결책을 제공하지만, 개인정보 보호 문제와 계산 요구 사항으로 인해 의료 현장에서의 채택이 제한되고 있습니다. 목적: 완전한 데이터 주권을 유지하면서 의료 기록에서 구조화된 의료 노트를 생성할 수 있는 Llama 3.2 1B 모델을 사용하여 개인정보 보호가 가능한 온디바이스 의료 기록 시스템을 개발하고 평가하는 것입니다. 방법: 1,500개의 합성 의료 기록-구조화된 노트 쌍을 사용하여 LoRA를 통한 파라미터 효율적 미세 조정(PEFT)으로 Llama 3.2 1B 모델을 미세 조정했습니다. 이 모델은 기본 Llama 3.2 1B 모델과 비교하여 두 데이터셋(100개의 내분비학 기록 및 140개의 수정된 ACI 벤치마크 사례)에서 평가되었습니다. 평가는 통계적 지표(ROUGE, BERTScore, BLEURT)와 여러 임상 품질 차원에서의 LLM-as-judge 평가를 사용했습니다. 결과: 미세 조정된 OnDevice 모델은 기본 모델에 비해 상당한 개선을 보였습니다. ACI 벤치마크에서 ROUGE-1 점수는 0.346에서 0.496로 증가했으며, BERTScore F1은 0.832에서 0.866으로 향상되었습니다. 임상 품질 평가에서는 주요 환각 사례가 85건에서 35건으로 감소했고, 사실 정확도가 5점 척도에서 2.81에서 3.54로 향상되었습니다. 내부 평가 데이터셋에서도 유사한 개선이 관찰되었으며, 종합 점수가 3.13에서 4.43으로 41.5% 증가했습니다. 결론: 의료 기록을 위한 소형 LLM의 미세 조정은 임상적으로 의미 있는 개선을 가져오면서도 완전한 온디바이스 브라우저 배포를 가능하게 합니다. 이 접근 방식은 의료 현장에서 AI 채택의 주요 장벽인 개인정보 보호, 비용 절감, 자원이 제한된 환경에서의 접근성을 해결합니다.
고품질 3D 텍스처 데이터셋의 대규모 구축이 제한적이라는 점은, 3D 텍스처 생성 모델의 학습을 여전히 근본적이면서도 어려운 문제로 남게 만들었습니다. 이러한 데이터 부족은 실제 시나리오로의 일반화를 방해합니다. 이를 해결하기 위해, 대부분의 기존 방법들은 기반 이미지 생성 모델을 미세 조정하여 학습된 시각적 사전 지식을 활용합니다. 그러나 이러한 접근법들은 일반적으로 다중 뷰 이미지만 생성하고, UV 텍스처 맵을 생성하기 위해 후처리에 의존합니다. UV 텍스처 맵은 현대 그래픽 파이프라인에서 필수적인 표현입니다. 이러한 두 단계 파이프라인은 종종 오류 누적과 3D 표면 전반의 공간적 불일치 문제를 겪습니다. 본 논문에서는, 사전 학습된 비디오 기반 모델에 인코딩된 시각적 지식을 활용하여 완전한 UV 텍스처 맵을 직접 생성하는 새로운 종단 간 프레임워크인 SeqTex를 소개합니다. 기존 방법들이 UV 텍스처의 분포를 독립적으로 모델링했던 것과 달리, SeqTex는 이 작업을 시퀀스 생성 문제로 재구성하여, 모델이 다중 뷰 렌더링과 UV 텍스처의 결합 분포를 학습할 수 있게 합니다. 이 설계는 비디오 기반 모델의 일관된 이미지 공간 사전 지식을 UV 도메인으로 효과적으로 전달합니다. 성능을 더욱 향상시키기 위해, 우리는 여러 가지 구조적 혁신을 제안합니다: 분리된 다중 뷰 및 UV 브랜치 설계, 교차 도메인 특징 정렬을 유도하는 기하학 정보 기반 어텐션, 그리고 세밀한 텍스처 디테일을 보존하면서 계산 효율성을 유지하는 적응형 토큰 해상도입니다. 이러한 구성 요소들은 SeqTex가 사전 학습된 비디오 사전 지식을 완전히 활용하고, 후처리 없이도 고품질 UV 텍스처 맵을 합성할 수 있게 합니다. 광범위한 실험을 통해 SeqTex가 이미지 조건 및 텍스트 조건 3D 텍스처 생성 작업에서 최첨단 성능을 달성하며, 우수한 3D 일관성, 텍스처-기하학 정렬, 그리고 실제 세계 일반화 능력을 보여줌을 확인했습니다.
관계 추출(RE)은 자연어 처리의 핵심 과제 중 하나이다. 전통적인 접근법은 일반적으로 RE를 지도 학습 문제로 설정하며, 문맥을 레이블에 직접 매핑하는 방식으로 진행된다. 그러나 이러한 방식은 도메인 외(OOD) 일반화 성능이 낮은 경우가 많다. 인간 주석자의 작업 흐름에서 영감을 받아, 우리는 RE를 주석 지침에 의해 안내되는 추론 과제로 재구성하고, RE 작업을 위한 검증 가능한 보상 강화 학습(RLVR) 프레임워크인 R1-RE를 소개한다. 우리의 방법은 소규모 언어 모델의 주석 작업을 위한 추론 능력을 이끌어내어 OOD 견고성을 크게 향상시킨다. 우리는 이 접근법을 공개된 Sem-2010 데이터셋과 비공개 MDKG 데이터셋에서 평가하였다. R1-RE-7B 모델은 약 70%의 평균 OOD 정확도를 달성하며, GPT-4o와 같은 선도적인 사유 모델과 동등한 성능을 보인다. 또한, 우리의 포괄적인 분석은 RE를 위한 RLVR 패러다임의 학습 동역학과 새롭게 나타나는 추론 행동에 대한 새로운 통찰을 제공한다.
본 논문은 텍스트 설명에서 직접 소프트웨어 취약점 심각도 수준을 예측하는 트랜스포머 기반 모델인 VLAI를 소개합니다. RoBERTa를 기반으로 구축된 VLAI는 600,000개 이상의 실제 취약점 데이터에 대해 미세 조정되었으며, 심각도 범주 예측에서 82% 이상의 정확도를 달성하여 수동 CVSS 점수 산정에 앞서 더 빠르고 일관된 트라이아지를 가능하게 합니다. 이 모델과 데이터셋은 오픈소스로 제공되며 Vulnerability-Lookup 서비스에 통합되었습니다.
최근 확산 기반 이미지 편집 방법들은 텍스트 기반 작업에서 큰 진전을 이루었지만, 복잡하고 간접적인 지시를 해석하는 데 어려움을 겪는 경우가 많습니다. 더욱이, 현재의 모델들은 종종 부적절한 정체성 보존, 의도하지 않은 편집, 또는 수동 마스크에 대한 과도한 의존 등의 문제를 보입니다. 이러한 문제를 해결하기 위해, 우리는 사용자 의도와 편집 모델의 능력을 효과적으로 연결하는 다중 모달 대형 언어 모델(MLLM) 기반의 계획 시스템인 X-Planner를 소개합니다. X-Planner는 사고의 연쇄적 추론을 통해 복잡한 지시를 체계적으로 단순하고 명확한 하위 지시로 분해합니다. 각 하위 지시에 대해 X-Planner는 정확한 편집 유형과 세그멘테이션 마스크를 자동으로 생성하여 수동 개입을 없애고, 지역적이며 정체성을 보존하는 편집을 보장합니다. 또한, 우리는 X-Planner를 훈련시키기 위한 대규모 데이터 생성 자동화 파이프라인을 제안하며, 이는 기존 벤치마크와 우리가 새로 도입한 복잡한 편집 벤치마크 모두에서 최첨단 결과를 달성합니다.
대형 언어 모델(LLMs)은 기업용 API를 호출하는 작업을 점점 더 많이 수행하고 있지만, 거의 동일한 도구들이 동일한 사용자 의도를 대상으로 경쟁하거나 필수 인자가 불충분하게 지정될 경우 종종 실패합니다. 우리는 DiaFORGE(Dialogue Framework for Organic Response Generation & Evaluation)를 소개합니다. 이는 명확화 중심의 3단계 파이프라인으로, (i) 어시스턴트가 매우 유사한 도구들을 구분해야 하는 페르소나 기반의 다중 턴 대화를 합성하고, (ii) 3B에서 70B 파라미터에 걸친 오픈소스 모델을 추론 흔적을 포함한 지도 학습으로 미세 조정하며, (iii) 동적 평가 스위트를 통해 각 모델을 실시간 에이전트 루프에 재배치하고 종단 간 목표 달성률과 기존의 정적 지표를 보고합니다. 우리의 동적 벤치마크 DiaBENCH에서, DiaFORGE로 훈련된 모델들은 최적화된 프롬프팅 하에서 GPT-4o 대비 27%p, Claude-3.5-Sonnet 대비 49%p 더 높은 도구 호출 성공률을 보였습니다. 추가 연구를 촉진하기 위해, 우리는 5000개의 프로덕션 등급 기업용 API 명세와 엄격하게 검증된 명확화 중심 대화를 포함한 오픈 코퍼스를 공개하여, 신뢰할 수 있는 기업용 도구 호출 에이전트를 구축하기 위한 실용적인 청사진을 제공합니다.
인공지능 시스템이 단일 모델에서 전문화된 에이전트들의 생태계로 진화함에 따라, 표준화된 통신 프로토콜의 필요성이 점점 더 중요해지고 있습니다. 본 논문은 기존 프로토콜의 주요 한계를 해결하기 위한 에이전트 상호운용성을 위한 새로운 아키텍처 프레임워크 제안인 MOD-X(Modular Open Decentralized eXchange)를 소개합니다. 현재의 접근 방식과 달리, MOD-X는 유니버설 메시지 버스, 철저한 상태 관리, 번역 기능, 그리고 블록체인 기반 보안 메커니즘을 포함한 계층화된 아키텍처를 제안합니다. 우리는 MOD-X의 아키텍처를 제시하고, 기존 프로토콜과 비교하며, 이종 전문 에이전트(다양한 아키텍처, 벤더, 기능, 지식 표현을 가진 에이전트—규칙 기반 시스템, 신경망, 기호 추론 엔진, 에이전트 래퍼를 가진 레거시 소프트웨어 등) 간의 통합을 가능하게 하는 방법을 실제 예시를 통해 보여줍니다. MOD-X의 주요 혁신에는 발행-구독 통신 모델, 의미적 기능 발견, 그리고 동적 워크플로 오케스트레이션이 포함되어 있으며, 이는 이론적 형식주의와 실제 구현을 연결하는 프레임워크를 제공합니다. 이 아키텍처는 중앙 집중식 조정 없이도 효과적으로 확장할 수 있는 진정한 분산형 상호운용 에이전트 생태계의 증가하는 요구를 해결합니다.
대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 능력을 보여왔지만, 미래 사건을 예측하는 능력에 대해서는 아직 연구가 충분히 이루어지지 않았다. 1년 전만 해도 대형 언어 모델은 인간 집단의 정확도에 근접하기 어려웠다. 나는 메타큘러스(Metaculus)의 464개 예측 질문에 대해 최신 대형 언어 모델을 평가하고, 그 성능을 인간 슈퍼포캐스터(superforecasters)와 비교했다. 최첨단 모델들은 겉보기에는 인간 집단을 능가하는 브라이어 점수(Brier score)를 달성했지만, 여전히 슈퍼포캐스터 그룹에 비해 크게 뒤처지는 것으로 나타났다.