번역이 포함된 일일 선별된 AI 연구 논문
웹을 자율적으로 탐색하고 정보를 종합하며 출처가 명확한 포괄적인 답변을 제공하는 Deep Research 시스템과 같은 에이전트 기반 검색은 사용자가 웹 규모의 정보와 상호작용하는 방식에 있어 큰 전환을 의미합니다. 이러한 검색 방식은 더 높은 효율성과 인지적 부담 감소를 약속하지만, 에이전트 기반 검색의 복잡성과 개방성이 기존의 평가 벤치마크와 방법론을 앞질러 나가고 있습니다. 기존 평가 방식은 주로 짧은 검색 범위와 정적인 답변을 가정하고 있습니다. 본 논문에서는 1,000시간 이상의 인간 노동을 통해 구축된 130개의 현실적이고 고품질이며 장기적인 작업으로 구성된 Mind2Web 2 벤치마크를 소개합니다. 이 작업들은 실시간 웹 탐색과 광범위한 정보 종합을 요구합니다. 시간에 따라 변하고 복잡한 답변을 평가하는 문제를 해결하기 위해, 우리는 새로운 Agent-as-a-Judge 프레임워크를 제안합니다. 이 방법은 트리 구조의 루브릭 설계를 기반으로 작업별 판단 에이전트를 구성하여 답변의 정확성과 출처 표시를 자동으로 평가합니다. 우리는 9개의 최첨단 에이전트 기반 검색 시스템과 인간의 성능을 포괄적으로 평가하고, 미래 개발을 위한 통찰을 도출하기 위해 상세한 오류 분석을 수행했습니다. 가장 성능이 뛰어난 시스템인 OpenAI Deep Research는 인간 성능의 50-70%를 달성하면서도 절반의 시간을 소비하여 큰 잠재력을 보여주었습니다. 전반적으로, Mind2Web 2는 차세대 에이전트 기반 검색 시스템의 개발과 벤치마킹을 위한 엄격한 기반을 제공합니다.
우리는 "이미지에서 벤치를 감지하고 분홍색으로 다시 칠하세요. 또한 더 명확한 시야를 위해 고양이를 제거하고 벽을 노란색으로 다시 칠하세요."와 같은 도전적인 다중 턴 이미지 편집 작업을 해결하기 위해 비용 효율적인 신경-기호 에이전트를 개발했습니다. 이 에이전트는 대형 언어 모델(LLMs)의 빠르고 높은 수준의 하위 작업 계획과 느리지만 정확한 도구 사용 및 로컬 A^* 탐색을 결합하여 비용 효율적인 도구 경로(즉, AI 도구 호출 시퀀스)를 찾습니다. 유사한 하위 작업에 대한 A^*의 비용을 절약하기 위해, 우리는 이전에 성공한 도구 경로에 대해 LLMs를 통해 귀납적 추론을 수행하여 자주 사용되는 서브루틴을 지속적으로 추출/개선하고 이를 새로운 도구로 재사용하여 미래 작업에 적용합니다. 이는 적응형 빠른-느린 계획 방식으로, 상위 수준의 서브루틴이 먼저 탐색되고, 이들이 실패할 때만 저수준 A^* 탐색이 활성화됩니다. 재사용 가능한 기호적 서브루틴은 유사한 이미지에 적용된 동일한 유형의 하위 작업에 대한 탐색 비용을 상당히 절약하며, 인간과 유사한 빠른-느린 도구 경로 에이전트 "FaSTA^*"를 생성합니다: 빠른 하위 작업 계획과 규칙 기반 서브루틴 선택이 LLMs에 의해 먼저 시도되며, 이는 대부분의 작업을 커버할 것으로 기대됩니다. 반면, 느린 A^* 탐색은 새롭고 도전적인 하위 작업에 대해서만 트리거됩니다. 최근의 이미지 편집 접근법과 비교하여, 우리는 FaSTA^*가 계산적으로 훨씬 더 효율적이면서도 성공률 측면에서 최신 기준선과 경쟁력을 유지한다는 것을 입증했습니다.
최근 장면 재구성 기술의 발전으로 3D 가우시안 스플래팅을 활용한 자율주행(AD) 환경의 고도로 사실적인 모델링이 가능해졌습니다. 그러나 이러한 재구성 결과는 원본 관측 데이터에 크게 의존하며, 상당히 변경되거나 새로운 주행 시나리오의 사실적 합성을 지원하는 데 어려움을 겪고 있습니다. 본 연구에서는 MADrive를 소개합니다. 이는 대규모 외부 메모리 뱅크에서 검색된 시각적으로 유사한 3D 자산으로 관측된 차량을 대체함으로써 기존 장면 재구성 방법의 기능을 확장하도록 설계된 메모리 증강 재구성 프레임워크입니다. 구체적으로, 우리는 야외에서 촬영된 약 70,000개의 360도 차량 비디오로 구성된 MAD-Cars 데이터셋을 공개하고, 메모리 뱅크에서 가장 유사한 차량 인스턴스를 찾아 해당 3D 자산을 비디오로부터 재구성한 후 방향 정렬과 재조명을 통해 대상 장면에 통합하는 검색 모듈을 제시합니다. 이를 통해 생성된 대체물은 장면 내 차량의 완전한 다중 뷰 표현을 제공하며, 실험에서 입증된 바와 같이 상당히 변경된 구성의 사실적 합성을 가능하게 합니다. 프로젝트 페이지: https://yandex-research.github.io/madrive/
우리는 행동과 이미지 이해 및 생성을 통합한 자기회귀적 행동 세계 모델인 WorldVLA를 소개한다. 우리의 WorldVLA는 Vision-Language-Action(VLA) 모델과 세계 모델을 단일 프레임워크로 통합한다. 세계 모델은 행동과 이미지 이해를 활용하여 미래 이미지를 예측함으로써 환경의 기본 물리를 학습하여 행동 생성을 개선하는 것을 목표로 한다. 한편, 행동 모델은 이미지 관찰을 기반으로 후속 행동을 생성하여 시각적 이해를 돕고, 이는 다시 세계 모델의 시각적 생성에 기여한다. 우리는 WorldVLA가 독립적인 행동 모델과 세계 모델을 능가하며, 세계 모델과 행동 모델 간의 상호 강화를 강조한다. 또한, 우리는 자기회귀 방식으로 행동 시퀀스를 생성할 때 행동 모델의 성능이 저하되는 현상을 발견했다. 이 현상은 행동 예측에 대한 모델의 제한된 일반화 능력으로 인해 초기 행동의 오류가 후속 행동으로 전파되기 때문으로 볼 수 있다. 이 문제를 해결하기 위해, 우리는 현재 행동 생성 시 이전 행동을 선택적으로 마스킹하는 주의 마스크 전략을 제안하며, 이는 행동 청크 생성 작업에서 상당한 성능 향상을 보여준다.
그로킹(Grokking), 즉 훈련 손실이 수렴한 후에도 오랜 시간 동안 테스트 성능이 계속 향상되는 현상은 최근 신경망 훈련에서 관찰되며, 일반화 메커니즘과 추론과 같은 새롭게 나타나는 능력들을 이해하기 어렵게 만들고 있다. 기존 연구들은 주로 소규모 모델을 몇 가지 간단하거나 매우 특수한 작업에 대해 수천 에포크 동안 훈련시키는 반면, 본 연구에서는 7B 규모의 대형 언어 모델(LLM), 즉 OLMoE의 원패스(one-pass) 사전 훈련 중 체크포인트에서 그로킹 현상을 처음으로 연구한다. 우리는 훈련 손실을 계산하고 수학적 추론, 코드 생성, 상식 및 도메인 특화 지식 검색 작업을 포함한 다양한 벤치마크 작업에서 일반화 성능을 평가한다. 본 연구는 대규모 기반 모델의 사전 훈련에서도 그로킹이 여전히 발생함을 처음으로 확인하며, 서로 다른 데이터가 비동기적으로 그로킹 단계에 진입할 수 있음을 보여준다. 또한, 우리는 LLM의 내부 동역학을 조사함으로써 그로킹의 "일반화의 출현"을 해명한다. 구체적으로, 그로킹 동안 훈련 샘플의 경로(즉, 계층 간 전문가 선택)가 무작위적이고 인스턴스 특정적에서 더 구조화되고 샘플 간에 공유 가능한 형태로 진화함을 발견한다. 또한, 손실이 수렴한 후에도 샘플 경로의 복잡도가 감소한다. 이러한 현상들은 암기에서 일반화로의 전환을 나타내며, 지연된 일반화에 대한 기계적 설명을 제공한다. 본 연구에서 우리는 경로 거리와 단일 경로의 복잡도를 정량화하기 위한 두 가지 새로운 지표를 개발한다. 이 지표들은 다양한 다운스트림 작업에서 일반화 성능 향상을 예측할 수 있는 능력을 보여준다. 이들은 효율적이며 계산이 간단하고 훈련 데이터에만 의존한다. 따라서 사전 훈련에서 실용적인 가치를 가지며, 파인튜닝과 테스트 없이도 일반화 성능을 모니터링할 수 있게 해준다. 이론적으로, 더 구조화된 경로는 모델 복잡도를 줄이고 일반화 경계를 개선함을 보여준다.
조건부 계산(conditional computation)은 트랜스포머의 효율성을 높이기 위한 인기 있는 전략입니다. 기존 방법들은 종종 개별 모듈(예: 전문가 혼합 레이어)을 대상으로 하거나 레이어를 서로 독립적으로 건너뛰는 방식에 초점을 맞춥니다. 그러나 해석 가능성 연구에 따르면, 트랜스포머의 중간 레이어들은 더 큰 중복성을 보이며, 초기 레이어들은 정보를 토큰 위치로 집약하는 것으로 나타났습니다. 이러한 통찰을 바탕으로, 우리는 중간에서 바깥쪽으로 가변적인 수의 레이어를 동적으로 건너뛰는 새로운 아키텍처를 제안합니다. 특히, 학습된 게이팅 메커니즘이 입력에 기반하여 중앙 블록의 대칭적 범위를 우회할지 여부를 결정하고, 게이트된 어텐션 메커니즘이 건너뛴 토큰 위치에 대한 후속 토큰의 주의를 방지합니다. 잔차 노름은 '샌드위치' 또는 '퍼레이어노름(perilayernorm)' 방식으로 제어되며, 게이트 희소성은 적응형 정규화 손실로 관리됩니다. 우리는 '더 단순한' 토큰에 대한 계산 요구를 줄이고, 잠재적으로 다단계 표현 계층 구조의 출현을 촉진하는 것을 목표로 했지만, 조사된 규모에서 우리의 접근 방식은 더 적은 레이어를 가진 밀집 기준선과 비교하여 검증 교차 엔트로피와 추정된 FLOP 사이의 균형 개선을 달성하지 못했습니다. 우리는 코드를 https://github.com/tim-lawson/skip-middle에서 공개합니다.
카메라와 LiDAR 스트림 간 프롬프트 가능한 세그멘테이션을 위해 설계된 다중 모달 및 시간적 파운데이션 모델인 SAM4D를 소개합니다. 통합 다중 모달 위치 인코딩(UMPE)을 도입하여 카메라와 LiDAR 특징을 공유된 3D 공간에서 정렬함으로써 원활한 크로스 모달 프롬프팅과 상호작용을 가능하게 합니다. 또한, 동적 자율 주행 장면에서 강력한 세그멘테이션을 보장하기 위해 자체 모션 보상을 활용하여 시간적 일관성과 장기적 특징 검색을 강화하는 모션 인식 크로스 모달 메모리 어텐션(MCMA)을 제안합니다. 주석 병목 현상을 피하기 위해 VFM 기반 비디오 마스클릿, 시공간적 4D 재구성, 그리고 크로스 모달 마스클릿 융합을 시너지적으로 결합한 다중 모달 자동 데이터 엔진을 개발했습니다. 이 프레임워크는 인간 주석보다 수 배 빠른 속도로 카메라-LiDAR 정렬된 의사 레이블을 생성하면서도 포인트 클라우드 표현에서 VFM 기반의 의미적 충실도를 유지합니다. 구축된 Waymo-4DSeg에서 광범위한 실험을 수행하여 제안된 SAM4D의 강력한 크로스 모달 세그멘테이션 능력과 데이터 주석에서의 큰 잠재력을 입증했습니다.
스키닝과 리깅은 애니메이션, 관절 객체 재구성, 모션 전이, 그리고 4D 생성에서 기본적인 구성 요소입니다. 기존의 접근법은 주로 선형 블렌드 스키닝(LBS)에 의존하는데, 이는 단순성과 미분 가능성 때문입니다. 그러나 LBS는 부피 손실과 비자연스러운 변형과 같은 아티팩트를 유발하며, 연성 조직, 털, 그리고 유연한 부속물(예: 코끼리 코, 귀, 지방 조직)과 같은 탄성 재료를 모델링하지 못합니다. 본 연구에서는 이러한 한계를 극복하기 위해 PhysRig를 제안합니다: PhysRig는 강체 골격을 체적 표현(예: 사면체 메쉬)에 내장하고, 이를 애니메이션된 골격에 의해 구동되는 변형 가능한 연체 구조로 시뮬레이션하는 미분 가능한 물리 기반 스키닝 및 리깅 프레임워크입니다. 우리의 방법은 연속체 역학을 활용하고 객체를 오일러 배경 그리드에 내장된 입자로 이산화하여 재료 특성과 골격 운동 모두에 대한 미분 가능성을 보장합니다. 또한, 우리는 높은 표현력을 유지하면서 학습 공간을 크게 줄이는 재료 프로토타입을 도입합니다. 우리의 프레임워크를 평가하기 위해, 우리는 Objaverse, The Amazing Animals Zoo, 그리고 MixaMo의 메쉬를 사용하여 다양한 객체 카테고리와 모션 패턴을 포함하는 포괄적인 합성 데이터셋을 구축했습니다. 우리의 방법은 전통적인 LBS 기반 접근법을 일관되게 능가하며, 더 현실적이고 물리적으로 타당한 결과를 생성합니다. 더 나아가, 우리는 포즈 전이 작업에서 우리의 프레임워크의 적용 가능성을 입증하며, 관절 객체 모델링에 대한 다용성을 강조합니다.
우리는 과거 비디오와 상대적 3D 신체 자세로 표현된 동작이 주어졌을 때, 인간의 동작으로부터 에고센트릭 비디오를 예측하는 모델(PEVA)을 학습시킵니다. 신체 관절 계층 구조로 구조화된 운동학적 자세 궤적을 조건으로 하여, 우리 모델은 물리적 인간 동작이 환경을 어떻게 형성하는지를 1인칭 시점에서 시뮬레이션하는 방법을 학습합니다. 우리는 실제 세계의 에고센트릭 비디오와 신체 자세 캡처로 구성된 대규모 데이터셋인 Nymeria에서 자기회귀 조건부 확산 트랜스포머를 학습시킵니다. 또한 점점 더 도전적인 과제로 구성된 계층적 평가 프로토콜을 설계하여, 모델의 체화된 예측 및 제어 능력을 포괄적으로 분석할 수 있도록 합니다. 우리의 작업은 인간의 관점에서 복잡한 실제 세계 환경과 체화된 에이전트 행동을 비디오 예측으로 모델링하는 도전 과제를 해결하기 위한 초기 시도를 나타냅니다.
대규모 언어 모델(LLM)이 빠르게 확산되면서 각기 다른 강점, 스타일, 또는 지연 시간/비용 프로파일에 최적화된 다양한 모델을 효과적으로 활용하기 위해 라우팅 기술이 필수적으로 자리 잡았습니다. 그러나 기존의 LLM 라우팅 접근 방식은 두 가지 주요한 한계를 가지고 있습니다: 첫째, 인간의 선호도를 반영하는 주관적 평가 기준을 종종 포착하지 못하는 벤치마크를 사용하여 성능을 평가하고, 둘째, 일반적으로 제한된 모델 풀에서 선택을 합니다. 본 연구에서는 사용자 정의 도메인(예: 여행) 또는 작업 유형(예: 이미지 편집)에 쿼리를 매칭하여 모델 선택을 안내하는 선호도 정렬 라우팅 프레임워크를 제안합니다. 이는 라우팅 결정에 선호도를 인코딩하는 실용적인 메커니즘을 제공합니다. 구체적으로, 우리는 쿼리를 도메인-작업 선호도에 매핑하여 모델 라우팅 결정을 학습하는 1.5B 크기의 컴팩트 모델인 Arch-Router를 소개합니다. 우리의 접근 방식은 또한 재훈련이나 아키텍처 수정 없이 새로운 모델을 라우팅에 원활하게 추가할 수 있도록 지원합니다. 대화 데이터셋에 대한 실험 결과, 우리의 접근 방식은 인간의 선호도와 쿼리를 매칭하는 데 있어 최첨단(SOTA) 결과를 달성하며, 주요 상용 모델을 능가하는 성능을 보여줍니다. 우리의 접근 방식은 주관적 평가 기준을 포착하고 라우팅 결정을 더 투명하고 유연하게 만듭니다. 우리의 모델은 https://huggingface.co/katanemo/Arch-Router-1.5B에서 이용 가능합니다.
희귀 질환은 전 세계적으로 3억 명 이상의 개인에게 영향을 미치지만, 적시에 정확한 진단은 여전히 만연한 과제로 남아 있습니다. 이는 주로 희귀 질환의 임상적 이질성, 낮은 개별 유병률, 그리고 대부분의 임상의가 희귀 질환에 대해 제한적으로 알고 있기 때문입니다. 본 연구에서는 대규모 언어 모델(LLM)로 구동되는 최초의 희귀 질환 진단 에이전트 시스템인 DeepRare를 소개합니다. 이 시스템은 이질적인 임상 입력을 처리할 수 있으며, 희귀 질환에 대한 순위가 매겨진 진단 가설을 생성하고, 각 가설은 검증 가능한 의학적 증거와 연결된 중간 분석 단계를 포함한 투명한 추론 체인을 제공합니다. DeepRare는 세 가지 주요 구성 요소로 이루어져 있습니다: 장기 기억 모듈을 갖춘 중앙 호스트; 40개 이상의 전문 도구와 웹 규모의 최신 의학 지식 소스를 통합하여 도메인별 분석 작업을 담당하는 전문 에이전트 서버로, 이를 통해 최신 임상 정보에 접근할 수 있습니다. 이 모듈화되고 확장 가능한 설계는 복잡한 진단 추론을 가능하게 하면서도 추적 가능성과 적응성을 유지합니다. 우리는 DeepRare를 8개의 데이터셋에서 평가했습니다. 이 시스템은 2,919개 질환 중 1,013개 질환에서 100% 정확도를 달성하며 탁월한 진단 성능을 보여주었습니다. HPO 기반 평가에서 DeepRare는 전통적인 생물정보학 진단 도구, LLM, 그리고 다른 에이전트 시스템 등 15개 방법을 크게 능가하며, 평균 Recall@1 점수 57.18%를 달성하고 두 번째로 우수한 방법(Reasoning LLM)을 23.79%포인트 차이로 앞섰습니다. 다중 모드 입력 시나리오에서 DeepRare는 109개 사례에서 Exomiser의 53.20%에 비해 Recall@1에서 70.60%를 달성했습니다. 임상 전문가에 의한 추론 체인의 수동 검증은 95.40%의 일치율을 보였습니다. 또한, DeepRare 시스템은 사용자 친화적인 웹 애플리케이션(http://raredx.cn/doctor)으로 구현되었습니다.
우리는 어린이의 단일 그림으로부터 스토리 중심의 만화 비디오를 생성하면서도 독특한 예술적 스타일을 충실히 보존하는 자동 시스템인 FairyGen을 제안한다. 기존의 스토리텔링 방법들이 주로 캐릭터 일관성과 기본적인 동작에 초점을 맞추는 것과 달리, FairyGen은 캐릭터 모델링을 스타일화된 배경 생성과 명확히 분리하고, 표현력 있고 일관된 스토리텔링을 지원하기 위해 시네마틱 샷 디자인을 통합한다. 단일 캐릭터 스케치가 주어지면, 우리는 먼저 MLLM을 사용하여 환경 설정, 캐릭터 동작, 카메라 시점 등을 지정하는 샷 수준의 설명이 포함된 구조화된 스토리보드를 생성한다. 시각적 일관성을 보장하기 위해, 우리는 캐릭터의 시각적 스타일을 포착하고 이를 배경에 적용하는 스타일 전파 어댑터를 도입하여, 스타일 일관된 장면을 합성하면서도 캐릭터의 완전한 시각적 정체성을 충실히 유지한다. 샷 디자인 모듈은 스토리보드를 기반으로 프레임 크롭핑과 다중 뷰 합성을 통해 시각적 다양성과 시네마틱 품질을 더욱 향상시킨다. 스토리를 애니메이션화하기 위해, 우리는 캐릭터의 3D 프록시를 재구성하여 물리적으로 타당한 동작 시퀀스를 도출하고, 이를 MMDiT 기반의 이미지-투-비디오 확산 모델을 미세 조정하는 데 사용한다. 우리는 또한 두 단계의 동작 커스터마이제이션 어댑터를 제안한다: 첫 번째 단계는 시간적으로 정렬되지 않은 프레임에서 외형 특징을 학습하여 동작과 정체성을 분리하고, 두 번째 단계는 고정된 정체성 가중치를 사용한 타임스텝-시프트 전략으로 시간적 역학을 모델링한다. 일단 학습이 완료되면, FairyGen은 스토리보드와 일치하는 다양하고 일관된 비디오 장면을 직접 렌더링한다. 광범위한 실험을 통해 우리의 시스템이 스타일적으로 충실하고, 서사적으로 구조화된 자연스러운 동작을 가진 애니메이션을 생성함을 입증하며, 이는 개인화되고 매력적인 스토리 애니메이션을 위한 잠재력을 강조한다. 코드는 https://github.com/GVCLab/FairyGen에서 확인할 수 있다.
우리는 단순한 기하학적 추상화를 조작하여 생성된 이미지의 장면과 상호작용할 수 있는 Generative Blocks World를 소개한다. 우리의 방법은 장면을 볼록한 3D 기본 요소들의 조합으로 표현하며, 동일한 장면을 다양한 수의 기본 요소로 표현할 수 있어 편집자가 전체 구조나 작은 세부 사항을 모두 이동시킬 수 있도록 한다. 장면의 기하학적 구조가 편집된 후, 깊이와 텍스처 힌트에 기반한 플로우 기반 방법으로 이미지를 생성한다. 우리의 텍스처 힌트는 수정된 3D 기본 요소를 고려하여, 기존의 키-값 캐싱 기법이 제공하는 텍스처 일관성을 뛰어넘는다. 이러한 텍스처 힌트는 (a) 정확한 객체 및 카메라 이동을 가능하게 하고, (b) 묘사된 객체의 정체성을 크게 보존한다. 정량적 및 정성적 실험을 통해 우리의 접근 방식이 시각적 충실도, 편집 가능성, 구성적 일반화 측면에서 기존 연구를 능가함을 입증한다.
기초 모델, 특히 대규모 언어 모델(LLMs)의 분산 학습은 높은 수준의 통신을 요구합니다. 이로 인해 빠르고 안정적인 상호 연결을 갖춘 중앙 집중식 클러스터에 크게 의존하게 됩니다. 1000억 개 이상의 파라미터를 가진 모델을 다룰 때, 느린 네트워크에서도 학습을 수행하여 분산 클러스터의 잠재력을 발휘할 수 있을까요? 본 논문에서는 DiLoCoX라는 저통신 대규모 분산 클러스터 학습 프레임워크를 제안합니다. 이 프레임워크는 파이프라인 병렬화(Pipeline Parallelism), 듀얼 옵티마이저 정책(Dual Optimizer Policy), 통신과 로컬 학습의 원스텝 딜레이 중첩(One-Step-Delay Overlap of Communication and Local Training), 그리고 적응형 그래디언트 압축 기법(Adaptive Gradient Compression Scheme)을 결합합니다. 이러한 조합은 파라미터 규모와 모델 사전 학습 속도를 크게 향상시킵니다. 우리는 통신과 로컬 학습의 원스텝 딜레이 중첩 및 적응형 그래디언트 압축 기법의 이점을 수렴 이론 분석을 통해 입증합니다. 실험적으로, DiLoCoX가 1Gbps 네트워크에서 1070억 파라미터 기초 모델을 사전 학습할 수 있음을 보여줍니다. 기본 AllReduce와 비교했을 때, DiLoCoX는 모델 수렴에 미미한 저하만을 유지하면서 분산 학습 속도를 357배까지 향상시킬 수 있습니다. 우리가 아는 한, 이는 1000억 개 이상의 파라미터를 가진 모델에 성공적으로 적용된 최초의 분산 학습 프레임워크입니다.
본 논문에서는 대규모 언어 모델(LLMs)의 수학적 추론 능력을 향상시키기 위해 정확성(correctness)과 잠재성(potential)이라는 두 가지 상호 보완적인 보상 신호를 통합한 새로운 보상 모델링 프레임워크인 DuaShepherd를 제안합니다. 정확성 기반 신호는 단계별 오류 식별을 강조하는 반면, 잠재성 기반 신호는 최종 정답에 도달할 가능성에 초점을 맞춥니다. 우리는 두 신호를 모두 포함한 대규모 보상 모델링 데이터셋을 구축하기 위한 자동화된 파이프라인을 개발했습니다. 또한, 다중 작업 설정에서 두 보상 모델을 학습하기 위해 통합된 다중 헤드 아키텍처를 탐구하였으며, 정확성과 잠재성을 병렬로 학습함으로써 얻는 이점을 입증했습니다. 이 두 신호를 복합 확률로 결합함으로써, 우리의 모델은 여러 벤치마크에서 일관된 성능 향상을 달성했습니다. MATH500과 ProcessBench에 대한 실험적 평가 결과, 이 결합된 보상은 단일 보상 유형으로 학습된 모델들을 크게 능가하며, 비슷한 자원 제약 하에서 최첨단 성능을 달성함을 확인했습니다.
우리는 다양한 시간에 따라 변화하는 음악적 속성과 참조 오디오 신호를 사용하여 정확한 조건화를 위해 텍스트-음악 생성 모델을 미세 조정하도록 설계된 경량 메커니즘인 MuseControlLite를 제안합니다. 핵심 발견은 텍스트 조건을 위한 조건화기에서 텍스트-음악 생성 모델들이 거의 사용하지 않았던 위치 임베딩이, 관심 조건이 시간의 함수일 때 매우 중요하다는 것입니다. 멜로디 제어를 예로 들어, 우리의 실험은 디커플드 크로스-어텐션 레이어에 단순히 로터리 위치 임베딩을 추가하는 것만으로도 제어 정확도를 56.6%에서 61.1%로 증가시키는 동시에, 최첨단 미세 조정 메커니즘보다 6.75배 적은 학습 가능한 매개변수를 필요로 한다는 것을 보여줍니다. 이는 Stable Audio Open의 사전 학습된 디퓨전 트랜스포머 모델을 사용하여 이루어졌습니다. 우리는 다양한 형태의 음악적 속성 제어, 오디오 인페인팅, 오디오 아웃페인팅을 평가하며, MusicGen-Large와 Stable Audio Open ControlNet보다 훨씬 낮은 미세 조정 비용으로 향상된 제어 가능성을 입증합니다. 이는 단 85M의 학습 가능한 매개변수만을 사용합니다. 소스 코드, 모델 체크포인트, 데모 예제는 https://musecontrollite.github.io/web/에서 확인할 수 있습니다.
휴리스틱 알고리즘은 조합 최적화(CO) 문제 해결에 핵심적인 역할을 하지만, 기존의 설계 방식은 수동 전문 지식에 크게 의존하며 다양한 문제 인스턴스 간 일반화에 어려움을 겪습니다. 우리는 대규모 언어 모델(LLM) 기반의 2단계 하이퍼-휴리스틱 프레임워크인 HeurAgenix를 소개합니다. 이 프레임워크는 먼저 휴리스틱을 진화시키고, 이후 이를 자동으로 선택합니다. 휴리스틱 진화 단계에서 HeurAgenix는 LLM을 활용하여 초기 휴리스틱 해결책과 더 높은 품질의 해결책을 비교하고 재사용 가능한 진화 전략을 추출합니다. 문제 해결 과정에서는 LLM의 인지 능력을 기반으로 각 문제 상태에 가장 적합한 휴리스틱을 동적으로 선택합니다. 유연성을 위해 이 선택기는 최신 LLM 또는 추론 비용이 낮은 미세 조정된 경량 모델로 구성될 수 있습니다. CO 문제의 복잡성으로 인한 신뢰할 수 있는 감독 데이터의 부족을 완화하기 위해, 우리는 선택 선호도와 상태 인지에서 나오는 신호를 공동으로 활용하는 이중 보상 메커니즘을 통해 경량 휴리스틱 선택기를 미세 조정하여, 노이즈가 있는 주석 하에서도 견고한 선택이 가능하도록 합니다. 표준 벤치마크에서의 광범위한 실험 결과, HeurAgenix는 기존의 LLM 기반 하이퍼-휴리스틱을 능가할 뿐만 아니라 특화된 솔버와도 동등하거나 더 나은 성능을 보여줍니다. 코드는 https://github.com/microsoft/HeurAgenix에서 확인할 수 있습니다.