번역이 포함된 일일 선별된 AI 연구 논문
인간의 인지적 한계를 초월하는 것은 LLM(대형 언어 모델) 훈련에서 중요한 과제로 자리 잡고 있습니다. DeepResearch와 같은 독점적인 에이전트 시스템은 BrowseComp와 같은 극도로 복잡한 정보 탐색 벤치마크에서 초인적인 성능을 입증하며, 이전에는 달성할 수 없었던 업적을 이루었습니다. 우리는 이러한 성공의 핵심이 오픈소스 모델에서는 찾아볼 수 없는 정교한 추론 패턴, 즉 방대한 정보 환경을 탐색할 때 극도의 불확실성을 체계적으로 줄이는 능력에 있다고 주장합니다. 이러한 통찰을 바탕으로, 우리는 이러한 중요한 능력을 심어주기 위한 완전한 사후 훈련 방법론인 WebSailor를 소개합니다. 우리의 접근 방식은 구조화된 샘플링과 정보 은폐를 통해 새로운 고불확실성 작업을 생성하고, RFT(Reward Fine-Tuning) 콜드 스타트, 그리고 효율적인 에이전트 RL(강화 학습) 훈련 알고리즘인 Duplicating Sampling Policy Optimization(DUPO)을 포함합니다. 이 통합 파이프라인을 통해 WebSailor는 복잡한 정보 탐색 작업에서 모든 오픈소스 에이전트를 크게 능가하며, 독점 에이전트의 성능에 근접하여 능력 격차를 줄였습니다.
최근 멀티모달 추론 분야의 발전은 텍스트 기반 사고의 연쇄(Chain-of-Thought, CoT) 패러다임에 의해 크게 촉진되었습니다. 이는 모델이 언어 내에서 추론을 수행하는 방식입니다. 그러나 이러한 텍스트 중심 접근법은 시각 정보를 정적인 초기 맥락으로 취급함으로써, 풍부한 지각 데이터와 이산적인 상징적 사고 사이에 근본적인 "의미론적 간극"을 만들어 냅니다. 인간의 인지는 종종 언어를 초월하여 시각을 동적인 정신 스케치패드로 활용합니다. 이와 유사한 진화가 이제 AI에서도 일어나고 있으며, 단순히 이미지에 대해 생각하는 모델에서 진정으로 이미지와 함께 생각할 수 있는 모델로의 근본적인 패러다임 전환을 이루고 있습니다. 이 새로운 패러다임은 모델이 시각 정보를 사고 과정의 중간 단계로 활용함으로써, 시각을 수동적인 입력에서 동적이고 조작 가능한 인지 작업 공간으로 변모시키는 특징을 갖습니다. 본 조사에서는 이러한 지능의 진화를 인지적 자율성이 증가하는 궤적을 따라 세 가지 주요 단계로 나누어 살펴봅니다: 외부 도구 탐색, 프로그래밍적 조작, 내재적 상상력. 이 빠르게 진화하는 분야를 체계화하기 위해, 본 조사는 네 가지 주요 기여를 합니다. (1) 이미지와 함께 생각하는 패러다임의 기본 원리와 세 단계 프레임워크를 정립합니다. (2) 이 로드맵의 각 단계를 특징짓는 핵심 방법론에 대한 포괄적인 검토를 제공합니다. (3) 평가 벤치마크와 변혁적 애플리케이션의 중요한 지형을 분석합니다. (4) 주요 도전 과제를 식별하고 유망한 미래 방향을 제시합니다. 이러한 구조화된 개요를 통해, 우리는 더 강력하고 인간과 조화된 멀티모달 AI를 향한 미래 연구를 위한 명확한 로드맵을 제공하고자 합니다.
2D 이미지에서 개방형 어휘 장면 이해를 통해 3D 구조를 복원하는 것은 근본적이지만 어려운 과제입니다. 최근 발전은 언어 정보를 내재화하여 장면별 최적화를 수행함으로써 이를 달성했습니다. 그러나 이러한 방법들은 보정된 밀집 뷰 재구성 패러다임에 크게 의존하기 때문에, 제한된 뷰가 제공될 때 심각한 렌더링 아티팩트와 비현실적인 의미론적 합성 문제에 직면합니다. 본 논문에서는 LangScene-X라는 새로운 생성 프레임워크를 소개하여 재구성과 이해를 위한 3D 일관된 다중 모달리티 정보를 통합하고 생성합니다. 더 일관된 새로운 관측을 생성하는 생성 능력을 기반으로, 희소 뷰만으로도 일반화 가능한 3D 언어 내재화 장면을 구축할 수 있습니다. 구체적으로, 먼저 TriMap 비디오 확산 모델을 학습시켜 희소 입력으로부터 외관(RGB), 기하학적 구조(노멀), 그리고 의미론적 정보(세그멘테이션 맵)를 점진적 지식 통합을 통해 생성합니다. 또한, 대규모 이미지 데이터셋에서 학습된 언어 양자화 압축기(LQC)를 제안하여 언어 임베딩을 효율적으로 인코딩함으로써 장면별 재학습 없이도 장면 간 일반화를 가능하게 합니다. 마지막으로, 언어 정보를 3D 장면의 표면에 정렬하여 언어 표면 필드를 재구성함으로써 개방형 언어 질의를 가능하게 합니다. 실제 데이터에 대한 광범위한 실험을 통해 LangScene-X가 품질과 일반화 능력 측면에서 최신 방법들을 능가함을 입증합니다. 프로젝트 페이지: https://liuff19.github.io/LangScene-X.
인간 피드백을 통한 강화 학습(RLHF)에서 보상 모델(RMs)의 중요한 역할에도 불구하고, 현재 최첨단 오픈 보상 모델들은 대부분의 기존 평가 벤치마크에서 부진한 성능을 보이며, 인간의 미묘하고 정교한 선호 스펙트럼을 제대로 포착하지 못하고 있습니다. 심지어 고급 훈련 기법을 도입한 접근법들도 의미 있는 성능 개선을 이루지 못했습니다. 우리는 이러한 취약성이 주로 선호 데이터셋의 한계에서 비롯된다고 가정합니다. 이러한 데이터셋들은 종종 좁은 범위로 한정되거나, 합성적으로 레이블링되었거나, 엄격한 품질 관리가 결여되어 있습니다. 이러한 문제를 해결하기 위해, 우리는 4천만 개의 선호 쌍으로 구성된 대규모 선호 데이터셋인 SynPref-40M을 제안합니다. 대규모 데이터 큐레이션을 가능하게 하기 위해, 우리는 인간의 주석 품질과 AI의 확장성을 상호 보완적으로 활용하는 인간-AI 시너지 두 단계 파이프라인을 설계했습니다. 이 파이프라인에서 인간은 검증된 주석을 제공하고, 대형 언어 모델은 인간의 지침에 기반하여 자동 큐레이션을 수행합니다. 이 선호 혼합 데이터로 훈련하여, 우리는 0.6B에서 8B 파라미터 범위의 8개 보상 모델로 구성된 Skywork-Reward-V2를 소개합니다. 이 모델들은 SynPref-40M에서 신중하게 선별된 2천6백만 개의 선호 쌍으로 훈련되었습니다. 우리는 Skywork-Reward-V2가 인간 선호와의 정렬, 객관적 정확성, 안전성, 스타일 편향에 대한 저항력, 그리고 best-of-N 스케일링을 포함한 다양한 능력에서 다재다능하며, 7개의 주요 보상 모델 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 제거 연구는 우리 접근법의 효과가 데이터 규모뿐만 아니라 고품질 큐레이션에서 비롯됨을 확인합니다. Skywork-Reward-V2 시리즈는 오픈 보상 모델 분야에서 상당한 진전을 나타내며, 기존 선호 데이터셋의 잠재력을 강조하고 인간-AI 큐레이션 시너지가 훨씬 더 높은 데이터 품질을 이끌어낼 수 있음을 보여줍니다.
텍스트-이미지 확산 모델에서 상당한 진전이 있었음에도 불구하고, 생성된 출력물에 대한 정확한 공간적 제어를 달성하는 것은 여전히 어려운 과제로 남아 있습니다. ControlNet은 보조 조건화 모듈을 도입하여 이 문제를 해결하고, ControlNet++는 최종 노이즈 제거 단계에만 적용되는 주기 일관성 손실을 통해 정렬을 더욱 개선합니다. 그러나 이 접근 방식은 중간 생성 단계를 간과하여 그 효과가 제한적입니다. 우리는 InnerControl을 제안하며, 이는 모든 확산 단계에 걸쳐 공간적 일관성을 강화하는 훈련 전략입니다. 우리의 방법은 모든 노이즈 제거 단계에서 중간 UNet 특징으로부터 입력 제어 신호(예: 에지, 깊이)를 재구성하기 위해 경량 컨볼루션 프로브를 훈련합니다. 이러한 프로브는 고도로 노이즈가 있는 잠재 공간에서도 효율적으로 신호를 추출하여 훈련을 위한 가짜 실측 제어를 가능하게 합니다. 전체 확산 과정에서 예측된 조건과 목표 조건 간의 불일치를 최소화함으로써, 우리의 정렬 손실은 제어 충실도와 생성 품질을 모두 개선합니다. ControlNet++와 같은 기존 기술과 결합된 InnerControl은 다양한 조건화 방법(예: 에지, 깊이)에서 최첨단 성능을 달성합니다.
인간의 시스템 2 사고(System 2 Thinking)와 유사한 추론 시점 계산 기술이 최근 모델 성능 향상을 위해 주목받고 있다. 그러나 대부분의 기존 접근법은 몇 가지 한계를 가지고 있다: 특정 모달리티에만 적용 가능(예: 텍스트만 작동), 특정 문제에만 적용 가능(예: 수학 및 코딩과 같이 검증 가능한 도메인), 또는 비지도 사전 학습 위에 추가적인 지도/훈련이 필요(예: 검증기 또는 검증 가능한 보상)하다는 점이다. 본 논문에서 우리는 "이러한 시스템 2 사고 접근법을 일반화하고, 비지도 학습만으로 사고하는 모델을 개발할 수 있는가?"라는 질문을 던진다. 흥미롭게도, 우리는 입력과 후보 예측 간의 호환성을 명시적으로 검증하는 방법을 학습하고, 이를 통해 예측 문제를 이 검증기를 기준으로 한 최적화 문제로 재구성함으로써 그 답이 '예'임을 발견했다. 구체적으로, 우리는 에너지 기반 모델(EBMs)의 새로운 클래스인 에너지 기반 트랜스포머(EBTs)를 훈련시켜 모든 입력과 후보 예측 쌍에 에너지 값을 할당하고, 수렴할 때까지 경사 하강법 기반 에너지 최소화를 통해 예측을 가능하게 했다. 이산(텍스트) 및 연속(시각) 모달리티 모두에서, EBTs는 훈련 중에 지배적인 트랜스포머++ 접근법보다 더 빠르게 확장되며, 데이터, 배치 크기, 매개변수, FLOPs, 깊이에 대해 최대 35% 더 높은 확장률을 달성했다. 추론 시점에서, EBTs는 언어 작업에서 트랜스포머++보다 29% 더 나은 시스템 2 사고 성능을 보였으며, 이미지 노이즈 제거에서는 더 적은 순방향 패스로 디퓨전 트랜스포머를 능가했다. 또한, EBTs는 동일하거나 더 나쁜 사전 학습 성능을 가진 기존 모델보다 대부분의 다운스트림 작업에서 더 나은 결과를 달성했으며, 이는 EBTs가 기존 접근법보다 더 잘 일반화함을 시사한다. 결과적으로, EBTs는 모델의 학습 및 사고 능력을 확장하기 위한 유망한 새로운 패러다임이다.
우리는 일반적 및 특수 생체분자 구조 예측을 위한 제어 가능한 기초 모델인 IntFold를 소개한다. IntFold는 최첨단 AlphaFold3에 필적하는 예측 정확도를 보이면서도, 더 우수한 맞춤형 어텐션 커널을 활용한다. 표준 구조 예측을 넘어, IntFold는 개별 어댑터를 사용하여 알로스테릭 상태, 제약된 구조, 결합 친화도를 예측하도록 적응될 수 있다. 더 나아가, 우리는 도킹 품질을 추정하기 위한 새로운 신뢰도 헤드를 도입하여 항체-항원 복합체와 같은 도전적인 표적에 대해 더 세밀한 평가를 제공한다. 마지막으로, 이 계산 집약적인 모델의 훈련 과정에서 얻은 통찰을 공유한다.
최근 연구에 따르면, 훈련 손실은 모델 크기와 토큰 수에 대해 멱법칙(power law)으로 스케일링되며, 계산 최적의 모델을 달성하기 위해서는 모델 크기와 토큰 수를 함께 스케일링해야 한다는 것이 밝혀졌습니다. 그러나 이러한 스케일링 법칙은 무한한 데이터 공급을 가정하며, 주로 계산 제약(compute-bound) 환경에서 적용됩니다. 현대의 대규모 언어 모델들이 점점 더 거대한 인터넷 규모의 데이터셋에 의존함에 따라, 이들이 계산 제약 상태에 있다는 가정은 점점 더 유효하지 않게 되고 있습니다. 이러한 변화는 토큰 효율성을 우선시하는 아키텍처의 필요성을 강조합니다. 이 연구에서는 2-단순체 트랜스포머(2-simplicial Transformer)의 사용을 탐구합니다. 이 아키텍처는 표준 내적 어텐션(dot-product attention)을 삼선형(trilinear) 함수로 일반화하며, 효율적인 Triton 커널 구현을 통해 이를 달성합니다. 우리는 2-단순체 트랜스포머가 표준 트랜스포머보다 더 나은 토큰 효율성을 달성함을 보여줍니다: 고정된 토큰 예산 하에서, 유사한 크기의 모델들이 수학, 코딩, 추론 및 논리와 관련된 작업에서 내적 어텐션 기반 모델들을 능가합니다. 우리는 2-단순체 어텐션이 내적 어텐션과 비교하여 지식 및 추론 작업에 대한 스케일링 법칙의 지수를 변화시킴으로써 이러한 이점을 정량화합니다.
실제 검색 시나리오에서의 복잡한 정보 요구는 다양한 소스에 걸친 심층적인 추론과 지식 통합을 요구하며, 이는 기존의 검색 증강 생성(RAG) 파이프라인이 효과적으로 해결하기 어려운 문제입니다. 현재의 추론 기반 접근법은 근본적인 한계를 가지고 있습니다: 단일 모델을 사용하여 상위 수준의 계획과 세부 실행을 모두 처리함으로써 비효율적인 추론과 제한된 확장성을 초래합니다. 본 논문에서는 전략적 계획과 전문적 실행을 분리하는 계층적 프레임워크인 HiRA를 소개합니다. 우리의 접근법은 복잡한 검색 작업을 집중적인 하위 작업으로 분해하고, 각 하위 작업을 외부 도구와 추론 능력을 갖춘 도메인 특화 에이전트에 할당하며, 구조화된 통합 메커니즘을 통해 결과를 조정합니다. 이러한 분리는 실행 세부 사항이 상위 수준의 추론을 방해하지 않도록 하면서도 다양한 유형의 정보 처리에 특화된 전문 지식을 활용할 수 있게 합니다. 네 가지 복잡한 크로스 모달 심층 검색 벤치마크에서의 실험은 HiRA가 최신 RAG 및 에이전트 기반 시스템을 크게 능가함을 보여줍니다. 우리의 결과는 다단계 정보 탐색 작업에서 계획과 실행을 분리하는 것이 답변 품질과 시스템 효율성 모두에서 개선을 가져온다는 것을 입증합니다. 우리의 코드는 https://github.com/ignorejjj/HiRA에서 확인할 수 있습니다.
동료 평가는 과학 연구의 근간이지만, 출판물의 양이 증가함에 따라 이 전문 지식 집약적인 프로세스의 어려움이 더욱 심화되고 있습니다. 대형 언어 모델(LLM)이 다양한 과학적 과제에서 유망한 가능성을 보여주고 있지만, 특히 논문의 한계를 식별하는 데 있어 동료 평가를 지원할 수 있는 잠재력은 아직 충분히 연구되지 않았습니다. 우리는 먼저 AI를 중심으로 과학 연구에서의 한계 유형에 대한 포괄적인 분류 체계를 제시합니다. 이 분류 체계를 바탕으로, 한계를 연구하기 위해 우리는 초기 피드백을 지원하고 인간 동료 평가를 보완하는 LLM의 능력을 평가하기 위한 첫 번째 포괄적인 벤치마크인 LimitGen을 소개합니다. 우리의 벤치마크는 두 가지 하위 집합으로 구성됩니다: LimitGen-Syn은 고품질 논문의 통제된 변형을 통해 신중하게 생성된 합성 데이터셋이며, LimitGen-Human은 실제 인간이 작성한 한계 사례를 모은 데이터셋입니다. LLM 시스템이 한계를 식별하는 능력을 향상시키기 위해, 우리는 선행 과학적 발견에 기반을 둔 한계 식별에 필수적인 문헌 검색 기능을 추가합니다. 우리의 접근 방식은 연구 논문에서 한계를 생성하는 LLM 시스템의 능력을 강화하여, 보다 구체적이고 건설적인 피드백을 제공할 수 있도록 합니다.
추론은 대규모 언어 모델(LLMs)에게 여전히 도전적인 과제로 남아 있으며, 특히 자동 정리 증명(ATP)의 논리적으로 제약된 환경에서는 희소한 보상과 방대한 규모의 증명으로 인해 더욱 어려워집니다. 이러한 도전은 대학 수준의 복잡한 다단계 추론을 요구하는 PutnamBench와 같은 벤치마크에서 더욱 두드러집니다. 이를 해결하기 위해, 우리는 자체 생성 목표 조건 MDPs(sG-MDPs)라는 새로운 프레임워크를 소개합니다. 이 프레임워크에서는 에이전트가 증명 상태의 변화에 따라 하위 목표를 생성하고 추구합니다. 이러한 구조화된 목표 생성 덕분에 결과적인 문제는 탐색에 더 적합해집니다. 그런 다음, 우리는 Monte Carlo Tree Search(MCTS)와 유사한 알고리즘을 적용하여 sG-MDP를 해결하고, 하위 목표 생성 및 전술 합성을 위해 여러 7B LLMs를 앙상블할 수 있는 모듈식 시스템인 Bourbaki(7B)에서 우리의 접근 방식을 구현합니다. PutnamBench에서 Bourbaki(7B)는 26개의 문제를 해결하며, 이 규모의 모델로는 새로운 최첨단 결과를 달성합니다.
대규모 언어 모델(LLM)은 혁신적인 발전을 이루었음에도 불구하고 여전히 실수를 저지르고 비생산적인 추론 경로를 탐색할 수 있습니다. 자기 수정은 특히 자기회귀적 LLM의 경우 신뢰할 수 있는 LLM을 위한 중요한 능력입니다. LLM은 사용자 입력의 오류를 식별할 수 있지만, '자기 수정 맹점'이라는 체계적인 문제를 보입니다. 이는 자신의 출력에서 동일한 오류를 수정하지 못하는 현상을 말합니다. 이 현상을 체계적으로 연구하기 위해, 우리는 세 가지 복잡성 수준에서 통제된 오류 주입을 통해 이를 측정하는 체계적인 프레임워크인 Self-Correction Bench를 도입했습니다. 14개의 모델을 테스트한 결과, 평균 64.5%의 맹점률을 발견했습니다. 이 한계가 훈련 데이터 구성과 관련이 있다는 여러 증거를 발견했습니다. 인간의 훈련 시연은 주로 오류가 없는 응답을 보여주는 반면, 결과 피드백을 통해 오류 수정을 학습하는 강화 학습(RL) 모델과는 대조적입니다. 흥미롭게도, 단순히 "잠깐"이라는 단어를 추가하는 것만으로도 맹점이 89.3% 감소했으며, 이는 해당 능력이 존재하지만 활성화가 필요함을 시사합니다. 우리의 연구는 현재 LLM의 중요한 한계를 강조하고, 그들의 신뢰성과 신뢰성을 향상시킬 수 있는 잠재적인 방향을 제시합니다.
선형 어텐션 메커니즘은 선형 계산 복잡도를 제공함으로써 대규모 언어 모델(LLM)에 상당한 이점을 제공하며, 초장기 시퀀스(예: 100만 컨텍스트)의 효율적인 처리를 가능하게 합니다. 그러나 이러한 작업 부하를 여러 장치에 분산시키는 데 필수적인 기존의 시퀀스 병렬화(SP) 방법은 상당한 통신 오버헤드로 인해 주요 병목 현상이 되고 있습니다. 본 논문에서는 이러한 한계를 극복하고 장기 시퀀스 훈련을 위한 종단 간 근선형 확장성을 달성하기 위해 선형 어텐션 모델을 위한 제로 통신 오버헤드(ZeCO) 시퀀스 병렬화라는 새로운 SP 방법을 소개합니다. 예를 들어, 64개 장치에서 100만 시퀀스 길이의 모델을 ZeCO로 훈련하는 데 걸리는 시간은 단일 장치에서 16k 시퀀스로 훈련하는 시간과 거의 동일합니다. ZeCO의 핵심에는 All-Scan이라는 새로운 집단 통신 프리미티브가 있습니다. All-Scan은 각 SP 랭크에 필요한 초기 연산자 상태를 정확히 제공하면서도 최소한의 통신 비용을 유지하여 통신 오버헤드를 효과적으로 제거합니다. 이론적으로, 우리는 ZeCO의 최적성을 증명하며, 이 방법이 미미한 시간 및 공간 오버헤드만을 도입함을 보여줍니다. 실험적으로, 우리는 다양한 시퀀스 병렬화 전략의 통신 비용을 비교하고 All-Scan이 SP 시나리오에서 가장 빠른 통신을 달성함을 입증합니다. 특히, 256개의 GPU에서 800만 시퀀스 길이로 ZeCO를 사용할 경우, 현재 최신(SoTA) SP 방법 대비 60%의 속도 향상을 달성합니다. 우리는 ZeCO가 이전에는 다루기 어려웠던 시퀀스 길이에서 차세대 LLM을 효율적으로 훈련하기 위한 명확한 경로를 제시한다고 믿습니다.
지도 미세 조정(SFT)은 명명된 개체 인식(NER)과 같은 정보 추출(IE) 작업에 대형 언어 모델(LLM)을 맞추기 위해 널리 사용됩니다. 그러나 이러한 세분화된 레이블을 주석 처리하고 도메인별 모델을 훈련시키는 데는 비용이 많이 듭니다. 기존 연구에서는 일반적으로 여러 도메인에 걸쳐 통합 모델을 훈련시키지만, 이러한 접근 방식은 모든 훈련 데이터가 대상 도메인에 도움이 되는 것은 아니며, 훈련된 모델을 확장하는 것이 여전히 어렵기 때문에 적응성과 확장성이 부족합니다. 우리는 추론 시점에 전문가 모델을 동적으로 선택하고 병합하는 SaM 프레임워크를 제안합니다. 구체적으로, 대상 도메인에 대해 (i) 대상 도메인과의 도메인 유사성과 (ii) 샘플 인스턴스에 대한 성능을 기준으로 기존 도메인에서 사전 훈련된 도메인별 전문가를 선택합니다. 그런 다음 전문가를 병합하여 대상 도메인에 최적화된 작업별 모델을 생성합니다. 대상 도메인에 유익한 전문가를 동적으로 병합함으로써 추가 훈련 없이 다양한 도메인에서의 일반화를 개선합니다. 또한 전문가를 편리하게 추가하거나 제거할 수 있어 뛰어난 확장성을 제공합니다. 여러 벤치마크에 대한 광범위한 실험을 통해 우리 프레임워크의 효과를 입증했으며, 통합 모델보다 평균 10% 더 우수한 성능을 보였습니다. 우리는 또한 잠재적인 개선 사항, 실용적인 경험, 그리고 우리 프레임워크의 확장에 대한 통찰을 제공합니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 사후 훈련(post-training) 단계에서 핵심 기술로 자리 잡고 있습니다. 기존의 작업 통합(task-colocated) RL 프레임워크는 확장성 병목 현상에 직면해 있으며, 작업 분리(task-separated) RL 프레임워크는 복잡한 데이터 흐름과 이에 따른 자원 유휴 및 작업 부하 불균형 문제를 겪고 있습니다. 또한, 대부분의 기존 프레임워크는 LLM 훈련 또는 추론 엔진과 긴밀하게 결합되어 있어 사용자 정의 엔진을 지원하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 효율적인 사후 훈련을 위한 비동기 스트리밍 RL 프레임워크인 AsyncFlow를 제안합니다. 구체적으로, 우리는 분산 데이터 저장 및 전송 모듈을 도입하여 완전한 스트리밍 방식으로 통합 데이터 관리와 세밀한 스케줄링 기능을 제공합니다. 이 아키텍처는 RL 작업 간 자동화된 파이프라인 중첩과 동적 부하 분산을 본질적으로 촉진합니다. 또한, 우리는 생산자-소비자 기반의 비동기 워크플로를 제안하여, 파라미터 업데이트 프로세스를 지연 임계값 내에서 전략적으로 지연시켜 계산적 유휴 시간을 최소화합니다. 마지막으로, AsyncFlow의 핵심 기능은 기본 훈련 및 추론 엔진과 아키텍처적으로 분리되어 있으며, 서비스 지향 사용자 인터페이스로 캡슐화되어 모듈화되고 사용자 정의 가능한 사용자 경험을 제공합니다. 광범위한 실험 결과, 최신 기준선 대비 평균 1.59배의 처리량 향상을 보여줍니다. 본 연구에서 제시된 아키텍처는 차세대 RL 훈련 시스템 설계를 위한 실행 가능한 통찰력을 제공합니다.
다중 장기 의료 영상 분할은 의료 영상 처리의 핵심 요소로, 의사들이 정확한 진단을 내리고 효과적인 치료 계획을 수립하는 데 필수적입니다. 이 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 다중 장기 분할 모델들은 종종 부정확한 세부 정보, 기하학적 프롬프트에 대한 의존성, 그리고 공간 정보의 손실과 같은 문제를 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 SAM2 기반의 교차 모달 상호작용과 의미론적 프롬프팅을 기반으로 한 CRISP-SAM2라는 새로운 모델을 소개합니다. 이 모델은 장기에 대한 텍스트 설명에 기반한 다중 장기 의료 영상 분할에 유망한 접근법을 제시합니다. 우리의 방법은 먼저 시각적 및 텍스트 입력을 점진적인 교차 주의 상호작용 메커니즘을 사용하여 교차 모달 문맥적 의미로 변환합니다. 이러한 의미는 이미지 인코더에 주입되어 시각적 정보에 대한 세부 이해를 강화합니다. 기하학적 프롬프트에 대한 의존성을 없애기 위해, 우리는 의미론적 프롬프팅 전략을 사용하여 원래의 프롬프트 인코더를 대체하고 어려운 대상에 대한 인식을 선명하게 합니다. 또한, 메모리를 위한 유사성 정렬 자체 업데이트 전략과 마스크 정제 과정을 적용하여 의료 영상에 더 잘 적응하고 지역적 세부 사항을 강화합니다. 7개의 공개 데이터셋에서 수행된 비교 실험은 CRISP-SAM2가 기존 모델들을 능가함을 보여줍니다. 광범위한 분석 또한 우리의 방법의 효과를 입증하며, 특히 앞서 언급된 한계를 해결하는 데 있어서 우수한 성능을 확인합니다. 우리의 코드는 https://github.com/YU-deep/CRISP\_SAM2.git에서 확인할 수 있습니다.
비전-언어 분할(segmentation) 분야의 최근 발전은 시각적 이해의 토대를 크게 진전시켰습니다. 그러나 이러한 모델들은 종종 이미지 내용에 근거하지 않은 객체에 대한 분할 마스크를 생성하거나 관련 없는 영역을 잘못 레이블링함으로써 환각(hallucination) 현상을 보입니다. 기존의 분할 환각 평가 프로토콜은 주로 레이블 또는 텍스트 환각에 초점을 맞추고 시각적 맥락을 조작하지 않아, 중요한 실패를 진단하는 데 한계가 있었습니다. 이에 대응하여, 우리는 반사실적(counterfactual) 시각 추론의 관점에서 시각적 토대의 환각을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 HalluSegBench을 소개합니다. 우리의 벤치마크는 281개의 고유 객체 클래스에 걸친 1340개의 반사실적 인스턴스 쌍으로 구성된 새로운 데이터셋과, 시각적으로 일관된 장면 편집 하에서 환각 민감도를 정량화하는 새로운 메트릭 세트로 이루어져 있습니다. 최첨단 비전-언어 분할 모델을 대상으로 한 HalluSegBench 실험 결과, 레이블 기반 환각보다 시각 기반 환각이 훨씬 더 빈번하게 발생하며, 모델들이 종종 잘못된 분할을 고수하는 것으로 나타나, 토대 충실도를 진단하기 위해 반사실적 추론의 필요성이 강조되었습니다.