번역이 포함된 일일 선별된 AI 연구 논문
본 연구는 생의학 자원이 제한된 언어인 러시아어에서 임상 코딩 자동화의 가능성을 탐구합니다. 우리는 전자의무기록(EHR)의 진단 필드를 포함하며 10,000개 이상의 개체와 1,500개 이상의 고유 ICD 코드로 주석 처리된 새로운 ICD 코딩 데이터셋을 제시합니다. 이 데이터셋은 BERT, LoRA를 적용한 LLaMA, RAG 등 여러 최신 모델의 벤치마크로 활용되며, 추가 실험을 통해 도메인 간(PubMed 초록에서 의학 진단으로) 및 용어 체계 간(UMLS 개념에서 ICD 코드로) 전이 학습을 검토합니다. 그런 다음 최고 성능을 보인 모델을 적용하여 2017년부터 2021년까지의 환자 기록을 포함한 내부 EHR 데이터셋에 레이블을 지정합니다. 신중하게 선별된 테스트 세트에서 수행된 실험 결과, 자동으로 예측된 코드를 사용한 학습이 의사가 수동으로 주석 처리한 데이터에 비해 정확도에서 상당한 개선을 보여줍니다. 우리는 이러한 연구 결과가 러시아어와 같은 자원이 제한된 언어에서 임상 코딩 자동화의 잠재력에 대한 유용한 통찰을 제공하며, 이러한 환경에서 임상 효율성과 데이터 정확성을 향상시킬 수 있을 것으로 믿습니다.
최근 인간 선호도 정렬(alignment) 분야의 발전은 다중모달 생성 및 이해 능력을 크게 향상시켰습니다. 주요 접근 방식 중 하나는 선호도 최적화를 안내하기 위해 보상 모델을 훈련시키는 것입니다. 그러나 기존 모델들은 주로 특정 작업에 국한되어 있어 다양한 시각적 응용 분야에 대한 적응성이 제한적입니다. 또한, 우리는 여러 작업을 동시에 평가하는 학습이 시너지 효과를 낼 수 있다고 주장합니다. 즉, 이미지 이해 능력의 향상이 이미지 생성 평가를 개선하고, 정교해진 이미지 평가가 프레임 분석을 통해 비디오 평가에 도움을 줄 수 있다는 것입니다. 이를 위해 본 논문은 다중모달 이해 및 생성 평가를 위한 최초의 통합 보상 모델인 UnifiedReward를 제안합니다. 이 모델은 쌍별 순위 지정(pairwise ranking)과 점수 기반 평가(pointwise scoring)를 모두 가능하게 하여 시각 모델의 선호도 정렬에 활용될 수 있습니다. 구체적으로, (1) 먼저 이미지와 비디오 생성/이해 작업을 포함한 대규모 인간 선호도 데이터셋을 구축하고 이를 기반으로 UnifiedReward를 개발합니다. (2) 그런 다음, 이 모델을 사용하여 시각 모델의 출력을 쌍별 순위 지정과 점수 선별을 통해 점진적으로 필터링하여 고품질의 선호도 쌍 데이터를 자동으로 구성합니다. (3) 마지막으로, 이러한 데이터를 직접 선호도 최적화(Direct Preference Optimization, DPO)를 통해 선호도 정렬에 활용합니다. 실험 결과는 다양한 시각적 작업을 동시에 평가하는 학습이 상당한 상호 이점을 가져올 수 있음을 보여주며, 우리의 파이프라인을 이미지와 비디오 이해/생성 작업에 적용하여 각 영역에서 성능을 크게 향상시켰습니다.
검색, 회귀, 분류 등에 사용되는 범용 다국어 벡터 표현은 전통적으로 양방향 인코더 모델에서 얻어집니다. 이러한 인코더 모델은 넓은 적용 범위를 가지고 있음에도 불구하고, 최근 생성형 디코더 전용 모델의 발전에 의해 그 빛이 다소 가려졌습니다. 그러나 이러한 발전을 이끈 많은 혁신들은 본질적으로 디코더에만 국한된 것은 아닙니다. 본 논문에서는 이러한 발전의 관점에서 다국어 인코더의 개발을 재조명하고, 유럽 및 세계적으로 널리 사용되는 언어를 포괄하는 다국어 인코더 패밀리인 EuroBERT를 소개합니다. 우리의 모델은 다국어 능력, 수학, 코딩 등 다양한 작업에서 기존 대안들을 능가하며, 최대 8,192 토큰 길이의 시퀀스를 기본적으로 지원합니다. 또한 EuroBERT의 설계 결정을 검토하며, 데이터셋 구성과 훈련 파이프라인에 대한 통찰을 제공합니다. 우리는 EuroBERT 모델을 공개하며, 중간 훈련 체크포인트와 함께 훈련 프레임워크도 함께 공개합니다.
최근 DeepSeek R1은 간단한 규칙 기반 인센티브를 활용한 강화 학습이 대규모 언어 모델에서 복잡한 추론 능력의 자율적 개발을 가능하게 하는 방법을 보여주었으며, 이는 모델이 훈련 중에 자기 반영과 응답 길이 증가를 보이는 "아하 순간"으로 특징지어졌습니다. 그러나 이러한 성공을 다중 모달 추론으로 확장하려는 시도는 종종 이러한 핵심 특성을 재현하지 못했습니다. 본 보고서에서는 비-SFT 2B 모델에서만 다중 모달 추론에 대한 이러한 발현적 특성을 성공적으로 재현한 첫 번째 사례를 소개합니다. Qwen2-VL-2B를 시작점으로 삼고 SAT 데이터셋에 직접 강화 학습을 적용함으로써, 우리의 모델은 CVBench에서 59.47%의 정확도를 달성하여 기본 모델보다 약 30% 우수한 성능을 보였으며, SFT 설정보다도 약 2% 더 높은 성과를 거두었습니다. 또한, 우리는 지시 모델을 사용하여 RL로 R1과 유사한 추론을 달성하려는 시도에서의 실패와 통찰을 공유하며, 관련된 도전 과제에 대한 통찰을 제공하고자 합니다. 주요 관찰 사항은 다음과 같습니다: (1) 지시 모델에 RL을 적용하면 종종 사소한 추론 궤적이 발생하며, (2) 단순한 길이 보상은 추론 능력을 유도하는 데 효과적이지 않습니다. 프로젝트 코드는 https://github.com/turningpoint-ai/VisualThinker-R1-Zero에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)의 급속한 발전은 음성 모델, 특히 음성 입력과 출력을 지원하는 speech2speech 프로토콜의 최근 진전에 상당한 관심을 불러일으켰습니다. 그러나 기존 벤치마크는 이러한 모델의 지시 수행 능력을 평가하기 위해 자동 텍스트 기반 평가자를 채택하고 있어, 음성 이해 및 생성 과정에서의 파라링구스틱(paralinguistic) 정보를 고려하지 못하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 실제 작업에서 음성 입력과 출력 모두에 걸쳐 파라링구스틱 정보를 포함한 지시 수행 능력을 평가하는 새로운 아레나 스타일의 S2S 벤치마크인 S2S-Arena를 소개합니다. 우리는 4개 도메인에서 21개 작업에 걸쳐 TTS와 실시간 녹음을 융합한 154개의 샘플을 설계하고, 기존의 인기 있는 음성 모델들을 아레나 스타일로 수동 평가했습니다. 실험 결과는 다음과 같습니다: (1) GPT-4o의 우수한 성능 외에도, ASR, LLM, TTS를 연쇄적으로 연결한 음성 모델이 텍스트-음성 정렬 후 공동 학습 모델을 능가하는 것으로 나타났습니다; (2) 파라링구스틱 정보를 고려할 때, 음성 모델의 지식 수준은 주로 LLM 백본에 의존하며, 다국어 지원은 음성 모듈에 의해 제한됩니다; (3) 우수한 음성 모델은 이미 음성 입력의 파라링구스틱 정보를 이해할 수 있지만, 적절한 파라링구스틱 정보를 포함한 오디오를 생성하는 것은 여전히 과제로 남아 있습니다.
최근 대형 언어 모델의 발전은 Chain of Thought (CoT) 프롬프팅을 통해 놀라운 추론 능력을 보여주었지만, 중간 출력에서 과도한 장황함으로 인해 계산 오버헤드가 증가하는 문제가 있었습니다. 본 연구에서는 인지 과학에서 영감을 받은 추론 패러다임과 언어적 제약을 결합하여 토큰 사용을 최소화하면서도 추론 정확도를 유지하는 새로운 프롬프팅 프레임워크인 Sketch-of-Thought (SoT)를 소개합니다. SoT는 인지 과학 기반의 사용자 정의 추론 패러다임을 유연하게 통합할 수 있도록 설계되었으며, 이를 위해 Conceptual Chaining, Chunked Symbolism, Expert Lexicons이라는 세 가지 패러다임을 구체화했습니다. 각 패러다임은 서로 다른 추론 작업에 맞게 설계되었으며, 경량 라우팅 모델을 통해 동적으로 선택됩니다. 다국어 및 멀티모달 시나리오를 포함한 15개의 추론 데이터셋에 대한 포괄적인 평가를 통해, SoT가 76%의 토큰 감소를 달성하면서도 정확도에 미치는 영향이 미미함을 입증했습니다. 특히 수학적 추론 및 다중 홉 추론과 같은 특정 도메인에서는 훨씬 적은 토큰을 사용하면서도 정확도를 향상시키는 결과를 보였습니다. 본 연구의 코드는 https://www.github.com/SimonAytes/SoT에서 공개되어 있습니다.
본 연구에서는 감정 인식이라는 과제에 대해 오므니-멀티모달 대규모 언어 모델에 검증 가능한 보상 강화 학습(RLVR)을 최초로 적용하였다. 감정 인식은 시각적 및 청각적 양식이 모두 중요한 역할을 하는 과제이다. 우리는 RLVR을 활용하여 오므니 모델을 최적화함으로써, 추론 능력, 감정 인식 정확도, 일반화 능력이라는 세 가지 핵심 측면에서 모델의 성능을 크게 향상시켰다. RLVR의 도입은 모델의 인-분포 데이터에 대한 전반적인 성능을 개선할 뿐만 아니라, 아웃-오브-분포 데이터셋에서 평가할 때 더 우수한 견고성을 보여준다. 더 중요한 것은, 개선된 추론 능력이 감정 인식 과정에서 시각적 및 청각적 정보와 같은 다양한 양식의 기여를 명확히 분석할 수 있게 해준다는 점이다. 이는 멀티모달 대규모 언어 모델의 최적화에 대한 귀중한 통찰을 제공한다.
현대 순환 시퀀스 모델의 필수 구성 요소 중 하나는 망각 게이트(forget gate)입니다. 트랜스포머(Transformer)는 명시적인 순환 구조를 가지고 있지 않지만, 우리는 데이터에 의존적인 방식으로 정규화되지 않은 어텐션 점수를 낮추는 방법을 통해 망각 게이트를 자연스럽게 통합할 수 있음을 보여줍니다. 이 어텐션 메커니즘을 "망각 어텐션(Forgetting Attention)"이라고 명명하고, 이를 적용한 모델을 "망각 트랜스포머(Forgetting Transformer, FoX)"라고 부릅니다. FoX는 장문 맥락 언어 모델링, 길이 외삽, 그리고 단문 맥락 하위 작업에서 트랜스포머를 능가하는 성능을 보이며, 장문 맥락 하위 작업에서는 트랜스포머와 동등한 성능을 보입니다. 또한, FoX는 FlashAttention 알고리즘과 호환되며 위치 임베딩을 필요로 하지 않습니다. 바늘 찾기 테스트(needle-in-the-haystack test)를 포함한 여러 분석을 통해 FoX는 Mamba-2, HGRN2, DeltaNet과 같은 순환 시퀀스 모델에 비해 트랜스포머의 우수한 장문 맥락 능력을 유지함을 확인했습니다. 또한, 순환 시퀀스 모델에서 흔히 사용되는 몇 가지 아키텍처 구성 요소를 통합한 "Pro" 블록 설계를 소개하며, 이는 FoX와 트랜스포머 모두의 성능을 크게 향상시킴을 발견했습니다. 우리의 코드는 https://github.com/zhixuan-lin/forgetting-transformer에서 확인할 수 있습니다.
기존의 대형 추론 모델(Large Reasoning Models, LRMs)은 강화 학습(Reinforcement Learning, RL)을 통해 대형 언어 모델(Large Language Models, LLMs)의 복잡한 추론 능력을 향상시킬 수 있는 잠재력을 보여주었습니다. 이러한 모델들은 수학 및 코딩과 같은 도전적인 과제에서 뛰어난 성능을 달성하지만, 문제를 해결하기 위해 내부 지식에 의존하는 경우가 많습니다. 이는 시간에 민감하거나 지식이 집약적인 질문에 대해 부적절할 수 있으며, 부정확성과 환각(hallucination)을 초래할 수 있습니다. 이를 해결하기 위해, 우리는 LLM의 검색 능력을 강화하기 위한 새로운 두 단계 결과 기반 RL 접근법인 R1-Searcher를 제안합니다. 이 방법은 LLM이 추론 과정에서 외부 검색 시스템을 자율적으로 호출하여 추가 지식에 접근할 수 있도록 합니다. 우리의 프레임워크는 전적으로 RL에 의존하며, 콜드 스타트를 위한 프로세스 보상이나 증류(distillation)가 필요하지 않습니다. 실험 결과, 우리의 방법은 이전의 강력한 RAG(Retrieval-Augmented Generation) 방법들을 크게 능가하며, 심지어 폐쇄형 GPT-4o-mini와 비교해서도 우수한 성능을 보여줍니다.
비디오 인페인팅(video inpainting)은 손상된 비디오 콘텐츠를 복원하는 것을 목표로 하며, 상당한 발전을 이루어 왔습니다. 그러나 이러한 발전에도 불구하고, 기존 방법들은 광학 흐름(optical flow)과 수용 필드(receptive field) 사전 정보를 통해 마스크되지 않은 영역의 픽셀을 전파하거나, 이미지 인페인팅 모델을 시간적으로 확장하는 방식으로 접근함에 있어, 완전히 마스크된 객체를 생성하거나 배경 컨텍스트 보존과 전경 생성이라는 상충되는 목표를 하나의 모델에서 균형 있게 달성하는 데 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 듀얼 스트림(dual-stream) 패러다임인 VideoPainter를 제안합니다. 이는 마스크된 비디오를 처리하고 사전 학습된 비디오 DiT(video DiT)에 백본 인식(backbone-aware) 배경 컨텍스트 단서를 주입하여 의미적으로 일관된 콘텐츠를 플러그 앤 플레이(plug-and-play) 방식으로 생성하는 효율적인 컨텍스트 인코더(6%의 백본 파라미터만 포함)를 통합합니다. 이러한 아키텍처 분리는 모델의 학습 복잡성을 크게 줄이면서도 중요한 배경 컨텍스트의 세밀한 통합을 가능하게 합니다. 또한, 우리는 임의 길이의 비디오 인페인팅을 가능하게 하는 새로운 타겟 영역 ID 리샘플링(target region ID resampling) 기법을 도입하여 실용성을 크게 향상시켰습니다. 더불어, 현재의 비전 이해 모델을 활용한 확장 가능한 데이터셋 파이프라인을 구축하여, 세그멘테이션 기반 인페인팅 학습과 평가를 위한 VPData와 VPBench을 제공하며, 이는 390K 이상의 다양한 클립을 포함한 가장 큰 규모의 비디오 인페인팅 데이터셋 및 벤치마크입니다. 인페인팅을 파이프라인 기반으로 활용하여, 우리는 비디오 편집 및 비디오 편집 쌍 데이터 생성과 같은 다운스트림 애플리케이션을 탐구하며, 경쟁력 있는 성능과 상당한 실용적 잠재력을 입증했습니다. 광범위한 실험을 통해 VideoPainter는 비디오 품질, 마스크 영역 보존, 텍스트 일관성 등 8가지 주요 메트릭에서 임의 길이의 비디오 인페인팅과 편집 모두에서 우수한 성능을 보여줍니다.
LLM 기반 에이전트는 웹 기반 작업을 해결하는 데 점점 더 능숙해지고 있습니다. 이러한 능력과 함께, 온라인 포럼에 허위 정보를 게시하거나 웹사이트에서 불법 물질을 판매하는 등 악의적인 목적으로 오용될 위험도 커지고 있습니다. 이러한 위험을 평가하기 위해, 우리는 웹 에이전트의 고의적 오용에 초점을 맞춘 첫 번째 벤치마크인 SafeArena를 제안합니다. SafeArena는 네 개의 웹사이트에서 250개의 안전한 작업과 250개의 유해한 작업으로 구성됩니다. 우리는 유해한 작업을 허위 정보, 불법 활동, 괴롭힘, 사이버 범죄, 사회적 편견이라는 다섯 가지 유해 범주로 분류하여 웹 에이전트의 현실적인 오용을 평가하도록 설계했습니다. 우리는 GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B, Llama-3.2 90B를 포함한 주요 LLM 기반 웹 에이전트를 이 벤치마크에서 평가했습니다. 유해 작업에 대한 이들의 취약성을 체계적으로 평가하기 위해, 우리는 에이전트 행동을 네 가지 위험 수준으로 분류하는 에이전트 위험 평가 프레임워크를 도입했습니다. 우리는 에이전트들이 악의적인 요청에 놀라울 정도로 순응적이라는 것을 발견했는데, GPT-4o와 Qwen-2는 각각 유해 요청의 34.7%와 27.3%를 완료했습니다. 우리의 연구 결과는 웹 에이전트를 위한 안전 조정 절차의 시급한 필요성을 강조합니다. 우리의 벤치마크는 https://safearena.github.io에서 확인할 수 있습니다.
우리는 단안 비디오를 위한 카메라 궤적 재조정을 위한 새로운 접근법인 TrajectoryCrafter를 소개합니다. 결정론적 시점 변환을 확률적 콘텐츠 생성으로부터 분리함으로써, 우리의 방법은 사용자가 지정한 카메라 궤적에 대한 정밀한 제어를 달성합니다. 우리는 포인트 클라우드 렌더링과 소스 비디오를 조건으로 동시에 통합하는 새로운 이중 스트림 조건부 비디오 확산 모델을 제안하여, 정확한 시점 변환과 일관된 4D 콘텐츠 생성을 보장합니다. 희소한 다중 시점 비디오를 활용하는 대신, 우리는 웹 규모의 단안 비디오와 정적 다중 시점 데이터셋을 결합한 하이브리드 훈련 데이터셋을 혁신적인 이중 재투영 전략을 통해 구성함으로써, 다양한 장면에서의 강력한 일반화를 크게 촉진합니다. 다중 시점 및 대규모 단안 비디오에 대한 광범위한 평가를 통해 우리 방법의 우수한 성능을 입증합니다.
대규모 언어 모델(LLM)을 위한 강화 학습(RL)의 최근 발전은 DeepSeek R1과 같은 사례에서 볼 수 있듯이, 단순한 질문-응답 작업조차도 LLM의 추론 능력을 크게 향상시킬 수 있음을 보여주었습니다. 본 연구에서는 이러한 접근법을 확장하여 작업을 다중 시도 설정으로 수정했습니다. 질문당 단일 응답을 생성하는 대신, 모델은 여러 번의 시도 기회를 가지며, 잘못된 응답 후에는 피드백이 제공됩니다. 다중 시도 작업은 모델이 이전 시도를 개선하고 탐색 효율성을 높이도록 장려합니다. 실험 결과에 따르면, 다중 시도 작업으로 훈련된 소규모 LLM은 더 많은 시도로 평가할 때 정확도가 크게 향상되었으며, 수학 벤치마크에서 1회 시도 시 45.6%에서 2회 시도 시 52.5%로 증가했습니다. 반면, 동일한 LLM이 표준 단일 턴 작업으로 훈련된 경우 평가 시 더 많은 시도를 허용해도 42.3%에서 43.2%로 미미한 개선만 보였습니다. 이러한 결과는 표준 단일 턴 작업과 비교하여 다중 시도 작업으로 훈련된 LLM이 수학 벤치마크에서 약간 더 나은 성능을 달성할 뿐만 아니라 사용자 피드백을 기반으로 응답을 더 효과적으로 개선하는 방법을 학습함을 나타냅니다. 전체 코드는 https://github.com/DualityRL/multi-attempt에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 크기를 줄이면서도 성능을 유지하는 과제는 상당한 주목을 받고 있습니다. 그러나 모델 증류(model distillation) 및 전이 학습(transfer learning)과 같은 기존 방법들은 종종 높은 정확도를 달성하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 두 단계를 통해 모델 압축을 강화하는 Branch-Merge 증류 접근법을 소개합니다: (1) Branch 단계에서는 대형 교사 모델의 지식을 도메인별 지도 미세 조정(SFT)을 통해 특화된 학생 모델들로 선택적으로 증류하고, (2) Merge 단계에서는 이러한 학생 모델들을 병합하여 도메인 간 지식 전달을 가능하게 하고 일반화를 개선합니다. 우리는 교사 모델로 DeepSeek-R1을, 학생 모델로 DeepSeek-R1-Distill-Qwen-32B를 사용하여 이 증류 접근법을 검증했습니다. 그 결과 병합된 모델인 TinyR1-32B-Preview는 수학(+5.5점), 코딩(+4.4점), 과학(+2.9점) 등 여러 벤치마크에서 DeepSeek-R1-Distill-Qwen-32B를 능가하며, AIME 2024에서는 DeepSeek-R1과 거의 동등한 성능을 달성했습니다. Branch-Merge 증류 접근법은 계산 비용과 시간을 줄이면서도 고성능의 소형 LLM을 생성하기 위한 확장 가능한 솔루션을 제공합니다.
코드 임베딩은 의미론적 코드 검색에 필수적이지만, 현재의 접근 방식들은 코드에 내재된 정확한 구문적 및 맥락적 뉘앙스를 포착하는 데 어려움을 겪는 경우가 많습니다. CodeBERT와 UniXcoder와 같은 오픈소스 모델들은 확장성과 효율성 측면에서 한계를 보이며, 고성능의 독점 시스템들은 상당한 계산 비용을 요구합니다. 우리는 Low-Rank Adaptation (LoRA) 기반의 파라미터 효율적 미세 조정 방법을 도입하여 코드 검색을 위한 작업 특화 어댑터를 구축합니다. 우리의 접근 방식은 학습 가능한 파라미터 수를 기본 모델의 2% 미만으로 줄여, 대규모 코드 코퍼스(2백만 개 샘플을 2개의 H100 GPU에서 25분 내)에 대한 빠른 미세 조정을 가능하게 합니다. 실험 결과, Code2Code 검색에서 최대 9.1%의 Mean Reciprocal Rank (MRR) 향상과, 여러 프로그래밍 언어에 걸친 Text2Code 검색 작업에서 최대 86.69%의 성능 향상을 보였습니다. 작업별 및 언어별 적응의 차이는 구문적 및 언어적 변이에 대한 코드 검색의 민감도를 탐구하는 데 도움을 줍니다.
실제 가정 환경에서의 작업은 이동 조작 로봇에게 상당한 도전 과제를 제시합니다. 기존 로봇 벤치마크를 분석한 결과, 작업 성공은 세 가지 핵심 전신 제어 능력에 달려 있음이 밝혀졌습니다: 양손 협응, 안정적이고 정밀한 주행, 그리고 광범위한 엔드 이펙터 도달성. 이러한 능력을 달성하기 위해서는 신중한 하드웨어 설계가 필요하지만, 그 결과로 시스템 복잡도가 증가하여 시각운동 정책 학습을 더욱 복잡하게 만듭니다. 이러한 도전 과제를 해결하기 위해, 우리는 다양한 가정 작업에서의 전신 조작을 위한 포괄적인 프레임워크인 BEHAVIOR Robot Suite(BRS)를 소개합니다. 4-DoF 상체를 가진 양손 휠 로봇을 기반으로 구축된 BRS는 데이터 수집을 위한 비용 효율적인 전신 원격 조작 인터페이스와 전신 시각운동 정책 학습을 위한 새로운 알고리즘을 통합합니다. 우리는 BRS를 장거리 주행, 관절 및 변형 가능한 물체와의 상호작용, 제한된 공간에서의 조작과 같은 추가적인 복잡성을 도입하는 다섯 가지 도전적인 가정 작업에서 평가합니다. 우리는 BRS의 통합 로봇 구현체, 데이터 수집 인터페이스, 그리고 학습 프레임워크가 일상적인 가정 작업을 위한 실제 전신 조작을 가능하게 하는 데 있어 중요한 진전을 이루었다고 믿습니다. BRS는 https://behavior-robot-suite.github.io/에서 오픈소스로 제공됩니다.
디퓨전 모델은 이미지 및 비디오 생성 분야에서 상당한 진전을 이루었지만 여전히 막대한 계산 비용이 발생하는 문제가 있습니다. 이를 해결하기 위한 효과적인 방법으로, 플로우 매칭(flow matching)은 디퓨전 모델의 디퓨전 과정을 직선으로 재구성하여 적은 단계 또는 심지어 단일 단계로 생성할 수 있도록 합니다. 그러나 본 논문에서는 기존 플로우 매칭의 학습 파이프라인이 최적이 아니라고 지적하고, 이를 개선하기 위한 두 가지 기법을 제안합니다. 첫째, 점진적 리플로우(progressive reflow)를 도입하여 디퓨전 모델을 로컬 타임스텝에서 점진적으로 재구성함으로써 전체 디퓨전 과정을 개선하고 플로우 매칭의 난이도를 줄입니다. 둘째, 정렬된 v-예측(aligned v-prediction)을 도입하여 플로우 매칭에서 크기 매칭보다 방향 매칭의 중요성을 강조합니다. SDv1.5와 SDXL에 대한 실험 결과는 우리의 방법의 효과를 입증합니다. 예를 들어, SDv1.5에서 MSCOCO2014 검증 세트에 대해 4개의 샘플링 단계만으로 FID 10.70을 달성하여, 교사 모델(32 DDIM 단계, FID = 10.05)에 근접한 성능을 보였습니다.
선형 시퀀스 모델링(Linear Sequence Modeling, LSM)과 같은 선형 어텐션, 상태 공간 모델, 선형 RNN, 그리고 전문가 혼합(Mixture-of-Experts, MoE)은 최근 중요한 아키텍처 개선으로 부상했습니다. 본 논문에서는 LSM과 MoE를 통합한 대규모 모델의 모델링과 학습을 위한 프로덕션 수준 시스템인 Linear-MoE를 소개합니다. Linear-MoE는 선형 복잡도의 시퀀스 모델링을 위한 LSM 모듈과 희소 활성화를 위한 MoE 레이어의 장점을 모두 활용하여 효율적인 학습과 함께 높은 성능을 제공하는 것을 목표로 합니다. Linear-MoE 시스템은 다음과 같이 구성됩니다: 1) 모든 LSM 인스턴스를 지원하는 통합 프레임워크를 제공하는 모델링 서브시스템, 2) 특히 Linear-MoE 모델을 위해 설계된 시퀀스 병렬화를 포함한 다양한 고급 병렬화 기술을 통해 효율적인 학습을 가능하게 하는 학습 서브시스템. 또한, Linear-MoE 레이어와 표준 Transformer-MoE 레이어를 결합한 하이브리드 모델을 탐구하여 모델의 유연성과 성능을 더욱 향상시킵니다. A0.3B-2B 및 A1B-7B 두 모델 시리즈에 대한 평가에서 Linear-MoE는 다양한 벤치마크에서 경쟁력 있는 성능을 유지하면서 효율성 향상을 달성했으며, 이를 통해 차세대 기초 모델 아키텍처로서의 잠재력을 입증했습니다. 코드: https://github.com/OpenSparseLLMs/Linear-MoE.
본 보고서에서는 STILL 프로젝트의 일환으로 진행된 '느린 사고 모델' 개발에 관한 세 번째 기술 보고서를 소개합니다. 기술적 접근 방식이 더욱 명확해짐에 따라, 강화학습(RL) 훈련의 확장이 이러한 추론 모델 구현을 위한 핵심 기술로 자리 잡았습니다. 우리는 RL 훈련에 영향을 미치는 다양한 요인들을 체계적으로 실험하고 그 효과를 문서화하며, 기본 모델과 미세 조정된 모델 모두에 대해 실험을 수행했습니다. 특히, 우리의 RL 훈련 접근법이 Qwen2.5-32B 기본 모델을 지속적으로 개선하여 응답 길이와 테스트 정확도를 모두 향상시킨다는 것을 입증했습니다. 또한, DeepSeek-R1-Distill-Qwen-1.5B와 같이 이미 높은 성능을 달성한 모델도 RL 훈련을 통해 추가로 개선될 수 있으며, AIME 2024에서 39.33%의 정확도를 달성할 수 있음을 보여주었습니다. RL 훈련 외에도, 도구 조작의 사용을 탐구한 결과, 이 방법이 대규모 추론 모델의 추론 성능을 크게 향상시킨다는 것을 발견했습니다. 이 접근법은 AIME 2024에서 탐욕적 탐색(greedy search)을 통해 86.67%라는 놀라운 정확도를 달성하며, 모델 능력 향상에서의 효과를 입증했습니다. 우리는 이와 관련된 리소스를 STILL 프로젝트 웹사이트(https://github.com/RUCAIBox/Slow_Thinking_with_LLMs)에서 공개합니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 특정 코퍼스 내에서 질의응답(Question-Answering, QA) 작업을 수행하는 데 있어 상당한 능력을 보여주었습니다. 그러나 여전히 QA에서 RAG의 실패 사례가 다수 존재합니다. 이러한 실패는 대규모 언어 모델(Large Language Models, LLMs)의 한계만으로 설명되지 않으며, 주로 두 가지 제약으로 인해 LLM에 부정확한 정보가 검색되기 때문에 발생합니다: (1) 현재의 RAG 방법들은 의미를 고려하지 않고 코퍼스를 분할하기 때문에, 질문과 분할된 세그먼트 간의 상관관계가 손상되어 관련 컨텍스트를 찾기 어렵습니다. (2) 적은 양의 컨텍스트를 검색할 때 필수적인 컨텍스트가 누락되거나, 많은 양의 컨텍스트를 검색할 때 관련 없는 컨텍스트가 포함되는 트레이드오프가 존재합니다. 본 논문에서는 이러한 한계를 극복하기 위해 RAG 프레임워크(SAGE)를 소개합니다. 첫째, 의미를 고려하지 않은 분할 문제를 해결하기 위해 의미론적 분할 모델을 학습시키는 것을 제안합니다. 이 모델은 코퍼스를 의미적으로 완전한 청크로 분할하도록 학습됩니다. 둘째, 가장 관련성이 높은 청크만 검색되고 관련 없는 청크는 무시되도록 하기 위해, 관련성 점수의 감소 속도를 기반으로 동적으로 청크를 선택하는 알고리즘을 설계하여 더 관련성 높은 선택을 이끌어냅니다. 셋째, 검색된 청크의 정확성을 더욱 보장하기 위해, LLM이 검색된 청크가 과도하거나 부족한지를 평가한 후 컨텍스트 양을 조정하도록 제안합니다. 실험 결과, SAGE는 QA 품질에서 평균 61.25%로 기준 모델을 능가했습니다. 또한, 노이즈가 있는 컨텍스트를 검색하지 않음으로써 SAGE는 LLM 추론에서 소비되는 토큰 비용을 절감하고, 평균 49.41%의 비용 효율성 향상을 달성했습니다. 추가적으로, 본 연구는 RAG 성능 향상을 위한 유용한 통찰을 제공합니다.
현재의 고급 장문맥 언어 모델(LCLM)은 실세계 소프트웨어 엔지니어링 응용 분야에서 큰 잠재력을 제공합니다. 그러나 이 중요한 영역에서의 진전은 근본적인 한계로 인해 여전히 방해받고 있습니다: 장문 코드 이해를 위한 엄격한 평가 프레임워크의 부재입니다. 이러한 장애를 해소하기 위해, 우리는 실용적인 응용에 필요한 LCLM의 장문 코드 이해 능력을 평가하기 위해 네 가지 측면(8개 작업)에서 장문 코드 이해 벤치마크 LONGCODEU를 제안합니다. 이는 코드 단위 인식, 코드 단위 내 이해, 코드 단위 간 관계 이해, 그리고 장문 코드 문서 이해를 포함합니다. 우리는 LONGCODEU에서 9개의 인기 있는 LCLM(즉, 6개의 일반 모델과 3개의 코드 모델)을 평가했습니다. 우리의 실험 결과는 현재 LCLM의 장문 코드 이해 능력에서 주요 한계를 드러냅니다. 특히, 장문 코드 길이가 32K를 초과할 때 LCLM의 성능이 급격히 하락하며, 그들이 주장하는 128K-1M 컨텍스트 윈도우에 훨씬 미치지 못합니다. 네 가지 측면 중에서 코드 단위 간 관계 이해가 LCLM에게 가장 도전적인 과제입니다. 우리의 연구는 LCLM 최적화와 소프트웨어 엔지니어링의 발전을 이끌기 위한 귀중한 통찰을 제공합니다.
현대의 대형 언어 모델(LLM)은 순차적인 특성으로 인해 비용이 많이 들고 속도가 느리며, 이 문제에 대한 효과적인 해결책으로 스펙티브 샘플링(speculative sampling)이 입증되었습니다. EAGLE과 같은 방법은 타겟 모델의 최상위 레이어 특징을 재사용하여 피처 수준에서 자기회귀를 수행함으로써 기본 스펙티브 샘플링보다 더 나은 결과를 달성합니다. LLM 커뮤니티에서는 추론 비용을 증가시키지 않으면서 모델의 지능을 향상시키기 위해 학습 데이터를 확장하는 추세가 증가하고 있습니다. 그러나 우리는 데이터를 확장해도 EAGLE의 성능 향상이 제한적이라는 점을 관찰했습니다. 이는 EAGLE의 피처 예측 제약에서 비롯된 것으로 확인되었습니다. 본 논문에서는 피처 예측을 포기하고 직접 토큰 예측을 채택하며, 최상위 레이어 특징에 대한 의존을 '훈련 시간 테스트(training-time test)'라는 기술을 통한 다층 피처 융합으로 대체한 EAGLE-3을 소개합니다. 이러한 개선으로 성능이 크게 향상되었으며, 드래프트 모델이 학습 데이터 확장의 이점을 완전히 누릴 수 있게 되었습니다. 우리의 실험은 채팅 모델과 추론 모델을 모두 포함하며, 다섯 가지 작업에서 평가되었습니다. 결과는 EAGLE-3이 최대 6.5배의 속도 향상을 달성했으며, EAGLE-2 대비 약 1.4배의 개선을 보여줍니다. 코드는 https://github.com/SafeAILab/EAGLE에서 확인할 수 있습니다.
비디오 이상 탐지(Video Anomaly Detection, VAD)는 컴퓨터 비전에서 비디오 분석 및 감시에 있어 매우 중요한 기술입니다. 그러나 기존의 VAD 모델들은 학습된 정상 패턴에 의존하기 때문에 다양한 환경에 적용하기 어렵습니다. 이로 인해 사용자들은 새로운 환경에 맞춰 모델을 재학습시키거나 별도의 AI 모델을 개발해야 하며, 이는 머신러닝 전문 지식, 고성능 하드웨어, 그리고 방대한 데이터 수집을 필요로 하여 VAD의 실용성을 제한합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 사용자 정의 비디오 이상 탐지(Customizable Video Anomaly Detection, C-VAD) 기술과 AnyAnomaly 모델을 제안합니다. C-VAD는 사용자가 정의한 텍스트를 이상 이벤트로 간주하고, 비디오에서 지정된 이벤트가 포함된 프레임을 탐지합니다. 우리는 대규모 비전 언어 모델을 미세 조정하지 않고도 컨텍스트 인식 시각 질의 응답(Context-Aware Visual Question Answering)을 통해 AnyAnomaly를 효과적으로 구현했습니다. 제안된 모델의 효과를 검증하기 위해, C-VAD 데이터셋을 구축하고 AnyAnomaly의 우수성을 입증했습니다. 또한, 우리의 접근 방식은 VAD 벤치마크 데이터셋에서도 경쟁력 있는 성능을 보였으며, UBnormal 데이터셋에서 최첨단 결과를 달성하고 모든 데이터셋에서 일반화 성능에서 다른 방법들을 능가했습니다. 우리의 코드는 github.com/SkiddieAhn/Paper-AnyAnomaly에서 확인할 수 있습니다.
사용자 시뮬레이터는 대화 시스템과의 인간 상호작용을 재현하는 데 핵심적인 역할을 하며, 특히 대규모 언어 모델(LLM)의 협력적 훈련과 자동 평가를 지원합니다. 그러나 기존 시뮬레이터는 주로 텍스트 발화에만 의존하여 성격, 말투, 목표와 같은 암묵적인 사용자 특성을 놓치는 경우가 많습니다. 반면, 페르소나 기반 방법은 유명 인물이나 원형에 기반한 미리 정의된 프로필에 의존하기 때문에 일반화가 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 암묵적 프로필을 활용한 사용자 시뮬레이터(USP)를 제안합니다. 이 프레임워크는 인간-기계 대화에서 암묵적 사용자 프로필을 추론하고 이를 활용해 더 개인화되고 현실적인 대화를 생성합니다. 먼저, 우리는 포괄적인 프로필 스키마를 갖춘 LLM 기반 추출기를 개발합니다. 그런 다음, 조건부 지도 미세 조정과 사이클 일관성을 갖춘 강화 학습을 통해 시뮬레이션을 개선하여 발화 수준과 대화 수준 모두에서 최적화합니다. 마지막으로, 실제 사용자 프로필의 분포를 포착하기 위해 다양한 프로필 샘플러를 도입합니다. 실험 결과, USP는 진실성과 다양성 측면에서 강력한 베이스라인을 능가하면서 일관성에서도 비슷한 성능을 달성함을 보여줍니다. 또한, USP 기반의 동적 다중 턴 평가는 주요 벤치마크와 강력하게 일치하며, 실제 애플리케이션에서의 효과성을 입증합니다.