번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM) 기반의 리스트와이즈 랭킹은 많은 문서 랭킹 작업에서 우수한 성능을 보여주고 있습니다. 대형 추론 모델의 발전과 함께, 테스트 시간 동안 단계별 추론이 리스트와이즈 랭킹 성능을 향상시키는 데 도움이 된다는 많은 연구가 입증되었습니다. 그러나 추론 집약적인 훈련 데이터의 부족으로 인해, 기존의 리랭커는 많은 복잡한 랭킹 시나리오에서 낮은 성능을 보이며, 추론 집약적인 리랭커의 랭킹 능력은 크게 미흡한 상태입니다. 본 논문에서는 먼저 다양한 도메인에서 훈련 쿼리와 문서를 수집하고 DeepSeek-R1을 적용하여 고품질의 훈련 레이블을 생성하는 자동화된 추론 집약적인 훈련 데이터 합성 프레임워크를 제안합니다. 데이터 품질을 보장하기 위해 자기 일관성 데이터 필터링 메커니즘이 설계되었습니다. 리스트와이즈 리랭커에 강력한 추론 능력을 부여하기 위해, 우리는 두 단계의 사후 훈련 접근 방식을 추가로 제안합니다. 이 접근 방식은 추론 패턴 학습을 위한 콜드 스타트 지도 미세 조정(SFT) 단계와 랭킹 능력 추가 강화를 위한 강화 학습(RL) 단계를 포함합니다. RL 단계에서는 리스트와이즈 랭킹의 특성을 기반으로 랭킹 메트릭 기반 보상보다 더 효과적인 다중 뷰 랭킹 보상을 설계합니다. 광범위한 실험을 통해 우리가 훈련한 추론 집약적인 리랭커 ReasonRank는 기존 베이스라인을 크게 능가하며, 포인트와이즈 리랭커 Rank1보다 훨씬 낮은 지연 시간을 달성함을 보여줍니다. 추가 실험을 통해 우리의 ReasonRank는 BRIGHT 리더보드에서 40.6의 최첨단(SOTA) 성능을 달성했습니다. 우리의 코드는 https://github.com/8421BCD/ReasonRank에서 확인할 수 있습니다.
전문 연구부터 일상적인 계획 수립에 이르기까지, 많은 작업들이 광범위한 정보 탐색으로 인해 병목 현상을 겪고 있으며, 이러한 탐색은 인지적으로 복잡하기보다는 반복적인 성격이 강합니다. 대규모 언어 모델(LLM)의 급속한 발전과 함께, LLM 기반의 자동화된 검색 에이전트는 인간을 이러한 지루한 작업에서 해방시킬 유망한 해결책을 제공합니다. 그러나 이러한 "광범위한 맥락" 정보 수집을 신뢰할 수 있고 완전하게 수행할 수 있는 에이전트의 능력은 적절한 벤치마크의 부재로 인해 크게 평가되지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 대규모 수집 작업에서 에이전트의 신뢰성을 평가하기 위해 설계된 새로운 벤치마크인 WideSearch를 소개합니다. 이 벤치마크는 15개 이상의 다양한 분야에서 실제 사용자 쿼리를 기반으로 수작업으로 선별된 200개의 질문(영어 100개, 중국어 100개)을 특징으로 합니다. 각 작업은 에이전트가 대규모의 원자적 정보를 수집하고 이를 객관적으로 하나씩 검증할 수 있으며, 잘 정리된 출력으로 배열하도록 요구합니다. 엄격한 5단계 품질 관리 파이프라인은 데이터셋의 난이도, 완전성 및 검증 가능성을 보장합니다. 우리는 단일 에이전트, 다중 에이전트 프레임워크 및 종단간 상용 시스템을 포함한 10개 이상의 최첨단 검색 에이전트 시스템을 벤치마크했습니다. 대부분의 시스템은 전체 성공률이 0%에 가까웠으며, 최고 성능을 보인 시스템도 단 5%에 그쳤습니다. 그러나 충분한 시간이 주어진다면, 여러 인간 테스터의 교차 검증을 통해 거의 100%의 성공률을 달성할 수 있습니다. 이러한 결과는 현재의 검색 에이전트들이 대규모 정보 탐색에서 심각한 결함을 가지고 있음을 보여주며, 검색 에이전트 분야의 향후 연구 및 개발이 시급한 영역임을 강조합니다. 우리의 데이터셋, 평가 파이프라인 및 벤치마크 결과는 https://widesearch-seed.github.io/에서 공개되었습니다.
대규모 언어 모델의 최근 발전은 복잡한 현실 세계의 과제를 해결할 수 있는 AI 에이전트에 대한 관심을 높이고 있습니다. 그러나 대부분의 기존 에이전트 시스템은 배포 후 정적으로 유지되는 수동으로 구성된 설정에 의존하여, 동적이고 진화하는 환경에 적응하는 능력이 제한적입니다. 이를 위해 최근 연구에서는 상호작용 데이터와 환경 피드백을 기반으로 에이전트 시스템을 자동으로 개선하기 위한 에이전트 진화 기술을 탐구하고 있습니다. 이러한 새로운 방향은 기초 모델의 정적 능력과 평생 에이전트 시스템이 요구하는 지속적인 적응성을 연결하는 자기 진화 AI 에이전트의 기반을 마련합니다. 본 조사에서는 자기 진화 에이전트 시스템을 위한 기존 기술을 포괄적으로 검토합니다. 구체적으로, 먼저 자기 진화 에이전트 시스템 설계의 기반이 되는 피드백 루프를 추상화한 통합 개념적 프레임워크를 소개합니다. 이 프레임워크는 시스템 입력, 에이전트 시스템, 환경, 최적화 도구라는 네 가지 핵심 구성 요소를 강조하며, 이를 통해 다양한 전략을 이해하고 비교할 수 있는 기반을 제공합니다. 이 프레임워크를 바탕으로, 에이전트 시스템의 다양한 구성 요소를 대상으로 하는 광범위한 자기 진화 기술을 체계적으로 검토합니다. 또한, 생물의학, 프로그래밍, 금융과 같은 특수 분야에서 개발된 도메인 특화 진화 전략을 조사하며, 이 분야에서는 최적화 목표가 도메인 제약과 밀접하게 연관되어 있습니다. 더불어, 자기 진화 에이전트 시스템의 평가, 안전성, 윤리적 고려 사항에 대한 전용 논의를 제공하며, 이는 시스템의 효과성과 신뢰성을 보장하는 데 중요합니다. 본 조사는 연구자와 실무자에게 자기 진화 AI 에이전트에 대한 체계적인 이해를 제공함으로써, 더 적응적이고 자율적이며 평생 지속 가능한 에이전트 시스템 개발의 기반을 마련하고자 합니다.
시각 효과(VFX)는 현대 영화 제작에 필수적인 시각적 향상 요소입니다. 비디오 생성 모델은 VFX 제작에 비용 효율적인 솔루션을 제공하지만, 현재의 방법들은 효과별 LoRA 학습에 제한되어 단일 효과만 생성할 수 있다는 한계가 있습니다. 이러한 근본적인 한계는 공간적으로 제어 가능한 복합 효과, 즉 지정된 위치에서 여러 효과를 동시에 생성해야 하는 응용 분야를 방해합니다. 그러나 다양한 효과를 통합된 프레임워크로 통합하는 데는 주요한 도전 과제가 있습니다: 효과 변형으로 인한 간섭과 다중 VFX 공동 학습 중의 공간적 비제어성입니다. 이러한 도전 과제를 해결하기 위해, 우리는 프롬프트 기반 효과와 공간적으로 제어 가능한 복합 효과를 생성할 수 있는 최초의 통합 프레임워크인 Omni-Effects를 제안합니다. 우리 프레임워크의 핵심은 두 가지 주요 혁신으로 구성됩니다: (1) LoRA 기반 전문가 혼합(LoRA-MoE)은 전문가 LoRA 그룹을 사용하여 다양한 효과를 통합된 모델 내에서 통합하면서 교차 작업 간섭을 효과적으로 완화합니다. (2) 공간 인식 프롬프트(SAP)는 공간 마스크 정보를 텍스트 토큰에 통합하여 정밀한 공간 제어를 가능하게 합니다. 또한, 우리는 SAP 내에 통합된 독립 정보 흐름(IIF) 모듈을 도입하여 개별 효과에 해당하는 제어 신호를 분리하여 원치 않는 혼합을 방지합니다. 이 연구를 촉진하기 위해, 우리는 이미지 편집과 First-Last Frame-to-Video(FLF2V) 합성을 결합한 새로운 데이터 수집 파이프라인을 통해 포괄적인 VFX 데이터셋 Omni-VFX를 구축하고, 모델 성능을 검증하기 위한 전용 VFX 평가 프레임워크를 소개합니다. 광범위한 실험을 통해 Omni-Effects가 정밀한 공간 제어와 다양한 효과 생성을 달성하여 사용자가 원하는 효과의 카테고리와 위치를 모두 지정할 수 있음을 입증합니다.
대형 언어 모델(LLMs)과 검색 도구를 통합한 딥 리서치 에이전트는 반복적인 검색 계획과 검색 결과에 대한 추론이 필요한 복잡한 쿼리를 처리하는 효과를 향상시키는 데 성공을 보여왔습니다. BrowseComp와 같은 현재의 벤치마크는 블랙박스 라이브 웹 검색 API를 사용하여 평가되며, 다음과 같은 두 가지 주요 한계가 있습니다: (1) 공정성: 동적이고 불투명한 웹 API는 딥 리서치 방법의 공정한 비교와 재현성을 방해합니다; (2) 투명성: 문서 코퍼스에 대한 통제가 부족하여 검색기의 기여를 분리하기 어렵습니다. 즉, 현재의 평가는 주어진 시점에서 완전한 딥 리서치 시스템을 비교할 수는 있지만, 기저에 있는 딥 리서치 LLM의 능력을 통찰하기 위한 잘 통제된 실험을 촉진하지는 못합니다. 이러한 문제를 해결하기 위해, 우리는 BrowseComp에서 파생된 벤치마크인 BrowseComp-Plus를 소개합니다. 이 벤치마크는 고정된, 신중하게 선별된 코퍼스를 사용합니다. BrowseComp-Plus의 각 쿼리에는 인간이 검증한 지원 문서와 도전적인 네거티브 샘플이 포함되어 있어 통제된 실험을 가능하게 합니다. 이 벤치마크는 딥 리서치 시스템의 성능을 구분하는 데 효과적인 것으로 입증되었습니다. 예를 들어, 오픈소스 모델인 Search-R1은 BM25 검색기와 함께 사용될 때 3.86%의 정확도를 달성한 반면, GPT-5는 55.9%의 정확도를 보였습니다. GPT-5를 Qwen3-Embedding-8B 검색기와 통합하면 더 적은 검색 호출로 70.1%의 정확도를 달성할 수 있었습니다. 이 벤치마크는 딥 리서치 에이전트와 검색 방법에 대한 포괄적인 평가와 분리된 분석을 가능하게 하여, 검색 효과, 인용 정확도, 그리고 딥 리서치 시스템의 컨텍스트 엔지니어링에 대한 통찰을 촉진합니다.
추론은 목적 지향적 행동의 핵심이지만, 대부분의 로봇 기초 모델은 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 그리고 의미적 기반이 제한됩니다. 우리는 Action Reasoning Models(ARMs)를 소개합니다. 이는 구조화된 3단계 파이프라인을 통해 지각, 계획, 그리고 제어를 통합하는 비전-언어-행동 모델 클래스입니다. 우리의 모델인 MolmoAct은 관찰과 명령을 깊이 인식 지각 토큰으로 인코딩하고, 편집 가능한 궤적 흔적으로 중간 수준의 공간 계획을 생성하며, 정밀한 저수준 행동을 예측하여 설명 가능하고 조정 가능한 행동을 가능하게 합니다. MolmoAct-7B-D는 시뮬레이션과 실제 환경에서 강력한 성능을 보입니다: SimplerEnv Visual Matching 작업에서 70.5%의 제로샷 정확도를 달성하여 폐쇄형 Pi-0와 GR00T N1을 능가하며, LIBERO에서 86.6%의 평균 성공률을 기록하고, 장기 작업에서 ThinkAct 대비 추가 6.3%의 성능 향상을 보였습니다. 또한 실제 환경 미세 조정에서 Pi-0-FAST 대비 단일 팔 작업에서 10%, 양팔 작업에서 22.7%의 추가 작업 진행률을 달성했습니다. 분포 외 일반화에서도 기준선 대비 23.3%의 추가 성능 향상을 보였으며, 개방형 명령 수행과 궤적 조정에서 최고의 인간 선호 점수를 기록했습니다. 더불어, 우리는 최초로 MolmoAct 데이터셋을 공개합니다. 이는 다양한 시나리오와 작업에 걸쳐 10,000개 이상의 고품질 로봇 궤적을 포함한 중간 훈련 로봇 데이터셋입니다. 이 데이터셋으로 훈련하면 기본 모델 대비 일반 성능이 평균 5.5% 향상됩니다. 우리는 모든 모델 가중치, 훈련 코드, 수집한 데이터셋, 그리고 행동 추론 데이터셋을 공개하여 MolmoAct을 최첨단 로봇 기초 모델이자 구조화된 추론을 통해 지각을 목적 지향적 행동으로 전환하는 ARMs 구축을 위한 개방형 청사진으로 확립합니다. 블로그 포스트: https://allenai.org/blog/molmoact
우리는 장기 추론 능력을 갖춘 Klear-Reasoner 모델을 소개합니다. 이 모델은 문제 해결 과정에서 신중한 고민을 보여주며, 여러 벤치마크에서 뛰어난 성능을 달성했습니다. 현재 커뮤니티에는 추론 모델과 관련된 많은 훌륭한 연구가 있지만, 훈련 세부 사항의 불완전한 공개로 인해 고성능 추론 모델의 재현에는 여전히 많은 문제가 있습니다. 이 보고서는 데이터 준비와 장기 Chain-of-Thought 지도 미세 조정(long CoT SFT)부터 강화 학습(RL)에 이르는 전체 사후 훈련 워크플로를 포함하여 추론 모델에 대한 심층 분석을 제공하며, 각 실험 구성 요소에 대한 상세한 절제 연구를 다룹니다. SFT 데이터의 경우, 실험 결과 소수의 고품질 데이터 소스가 다양한 데이터 소스의 대량보다 더 효과적이며, 정확도 필터링 없이도 어려운 샘플이 더 나은 결과를 달성할 수 있음을 보여줍니다. 또한, RL에서 현재 클리핑 메커니즘의 두 가지 주요 문제를 조사했습니다: 클리핑이 중요한 탐색 신호를 억제하고 최적이 아닌 궤적을 무시한다는 점입니다. 이러한 문제를 해결하기 위해, 클리핑된 토큰에서 그래디언트를 부드럽게 역전파하는 Gradient-Preserving Clipping Policy Optimization(GPPO)을 제안합니다. GPPO는 모델의 탐색 능력을 강화할 뿐만 아니라 부정적 샘플로부터 학습하는 효율성도 향상시킵니다. Klear-Reasoner는 수학과 프로그래밍에서 탁월한 추론 능력을 보여주며, AIME 2024에서 90.5%, AIME 2025에서 83.2%, LiveCodeBench V5에서 66.0%, LiveCodeBench V6에서 58.1%의 점수를 기록했습니다.
최근 제안된 대형 개념 모델(Large Concept Model, LCM)은 문장 수준 임베딩 시퀀스를 예측하고 평균 제곱 오차 또는 확산 목적 함수를 사용하여 학습함으로써 텍스트를 생성한다. 본 논문에서는 동일한 연속 SONAR 임베딩 공간에서 "사고"하지만, 고정된 SONAR 디코더를 통해 전파된 토큰 수준의 교차 엔트로피로 지도 학습되는 디코더 전용 트랜스포머인 SONAR-LLM을 제안한다. 이 하이브리드 목적 함수는 LCM의 의미론적 추상화를 유지하면서 확산 샘플러를 제거하고 가능도 기반 학습 신호를 복원한다. 39M에서 1.3B 파라미터에 이르는 다양한 모델 크기에서 SONAR-LLM은 경쟁력 있는 생성 품질을 달성한다. 본 논문은 스케일링 경향, 제거 실험, 벤치마크 결과를 보고하며, 재현성과 향후 연구를 촉진하기 위해 전체 학습 코드와 모든 사전 학습된 체크포인트를 공개한다.
대형 언어 모델(LLM) 기반 에이전트는 추론과 도구 사용 분야에서 인상적인 진전을 이루며 복잡한 과제 해결이 가능해졌다. 그러나, 특히 목표가 모호하거나 진화적이거나 간접적으로 표현된 상황에서 사용자와 능동적으로 협력하는 능력은 아직 충분히 탐구되지 않았다. 이러한 격차를 해결하기 위해, 우리는 다중 턴, 선호도 기반 상호작용에서 에이전트를 평가하기 위해 설계된 사용자 중심 벤치마크인 UserBench를 소개한다. UserBench는 명확하지 않은 목표로 시작하여 점진적으로 선호도를 드러내는 시뮬레이션된 사용자를 특징으로 하며, 에이전트가 의도를 능동적으로 명확히 하고 도구를 사용하여 근거 있는 결정을 내리도록 요구한다. 주요 오픈소스 및 클로즈드소스 LLM에 대한 평가 결과, 과제 완료와 사용자 정렬 간에 상당한 괴리가 있음이 드러났다. 예를 들어, 모델은 평균적으로 모든 사용자 의도와 완전히 일치하는 답변을 20%의 경우에만 제공하며, 가장 발전된 모델조차도 능동적 상호작용을 통해 모든 사용자 선호도의 30% 미만을 파악한다. 이러한 결과는 단순히 유능한 과제 수행자뿐만 아니라 진정한 협력 파트너로서의 에이전트를 구축하는 데 있어 도전 과제를 강조한다. UserBench는 이러한 중요한 역량을 측정하고 발전시키기 위한 상호작용 환경을 제공한다.
LLM 추론을 위한 강화 학습은 알고리즘 혁신과 실제 응용 분야 모두에서 관련 연구가 급증하며 주요 연구 영역으로 빠르게 부상하고 있습니다. 이러한 진전에도 불구하고, RL 기술을 적용하기 위한 표준화된 가이드라인의 부재와 그 기저 메커니즘에 대한 파편화된 이해를 포함한 여러 중요한 과제가 남아 있습니다. 또한, 일관되지 않은 실험 설정, 훈련 데이터의 변동, 모델 초기화의 차이 등으로 인해 상충되는 결론이 도출되며, 이러한 기술의 핵심 특성을 흐리게 하고 실무자들이 적절한 기술을 선택하는 데 혼란을 야기하고 있습니다. 본 논문은 통합된 오픈소스 프레임워크 내에서 엄격한 재현과 분리된 평가를 통해 널리 채택된 RL 기술을 체계적으로 검토합니다. 다양한 난이도의 데이터셋, 모델 크기, 아키텍처를 포함한 세분화된 실험을 통해 각 기술의 내부 메커니즘, 적용 가능한 시나리오, 핵심 원리를 분석합니다. 이러한 통찰을 바탕으로, 특정 설정에 맞춰 RL 기술을 선택하기 위한 명확한 가이드라인을 제시하고, LLM 도메인에서 RL을 활용하는 실무자들을 위한 신뢰할 수 있는 로드맵을 제공합니다. 마지막으로, 두 가지 기술의 미니멀리스트적 조합이 기본 PPO 손실을 사용하여 비평가 정책의 학습 능력을 개방할 수 있음을 밝힙니다. 결과는 우리의 단순한 조합이 GRPO 및 DAPO와 같은 전략을 능가하며 일관되게 성능을 향상시킴을 보여줍니다.
강화 학습(RL)과 시각 지능의 교차점에서의 최근 발전은 복잡한 시각적 장면을 인지할 뿐만 아니라 그 안에서 추론, 생성, 행동할 수 있는 에이전트를 가능하게 했습니다. 본 조사는 이 분야에 대한 비판적이고 최신의 종합을 제공합니다. 먼저 시각적 RL 문제를 공식화하고, RLHF에서 검증 가능한 보상 패러다임으로, 그리고 Proximal Policy Optimization에서 Group Relative Policy Optimization으로 이어지는 정책 최적화 전략의 진화를 추적합니다. 그런 다음 200개 이상의 대표적인 연구를 다중 모드 대형 언어 모델, 시각적 생성, 통합 모델 프레임워크, 그리고 시각-언어-행동 모델이라는 네 가지 주제 기둥으로 분류합니다. 각 기둥에 대해 알고리즘 설계, 보상 엔지니어링, 벤치마크 진전을 검토하고, 커리큘럼 기반 훈련, 선호도 정렬 확산, 통합 보상 모델링과 같은 트렌드를 도출합니다. 마지막으로, 집합 수준 충실도, 샘플 수준 선호도, 상태 수준 안정성을 아우르는 평가 프로토콜을 검토하고, 샘플 효율성, 일반화, 안전한 배포를 포함한 열린 과제를 식별합니다. 우리의 목표는 연구자와 실무자에게 시각적 RL의 빠르게 확장되는 지형을 일관된 지도로 제공하고, 미래 탐구를 위한 유망한 방향을 강조하는 것입니다. 리소스는 https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 검색-강화 생성(Retrieval-Augmented Generation, RAG)을 통해 생성 성능이 향상되었으며, 이는 외부에서 검색된 지식을 모델 입력에 보충하는 검색기-판독기(retriever-reader) 패러다임을 따릅니다. 그러나 기존 연구에서는 RAG를 종합적으로 평가하여 검색기와 판독기를 함께 평가함으로써, 특히 판독기로 사용되는 LLMs의 프롬프트 민감성을 고려할 때 검색의 실제 기여도를 분리하기 어려웠습니다. 본 연구에서는 스펙트럼 투영 점수(Spectrum Projection Score, SPS)를 소개합니다. SPS는 경량화되고 지도 학습이 필요 없는 지표로, 판독기가 검색된 요약과 그 숨겨진 표현 간의 의미적 일치를 측정할 수 있도록 합니다. 이는 요약에서 생성된 토큰들로 형성된 영역과 판독기의 부분 공간의 주 방향을 비교하여 관련성을 측정합니다. SPS를 기반으로, 본 연구는 추론 시간 제어 프레임워크인 xCompress를 제안합니다. xCompress는 동적으로 검색 요약 후보를 샘플링, 순위 지정 및 압축합니다. 4개의 오픈소스 LLMs를 사용한 5개의 질의응답(QA) 벤치마크에 대한 광범위한 실험을 통해, SPS가 다양한 작업에서 성능을 향상시킬 뿐만 아니라 검색과 생성 간의 상호작용에 대한 원칙적인 관점을 제공함을 보여줍니다.
Mixture of Experts(MoE) 아키텍처는 현대 최첨단(State-of-the-Art, SOTA) 대규모 언어 모델(Large Language Models, LLMs)의 핵심 요소입니다. MoE 모델은 희소 매개변수 활성화를 통해 확장성을 가능하게 합니다. 그러나 기존의 MoE 아키텍처는 균일한 크기의 동종 전문가를 사용하며, 입력 복잡도와 관계없이 고정된 수의 매개변수를 활성화함으로써 계산 효율성을 제한합니다. 이러한 한계를 극복하기 위해, 우리는 이질적인 big.LITTLE CPU 아키텍처에서 영감을 받아 다양한 크기의 전문가를 통합한 새로운 아키텍처인 Grove MoE를 소개합니다. 이 아키텍처는 동적 활성화 메커니즘을 갖춘 새로운 adjugate 전문가를 특징으로 하며, 관리 가능한 계산 오버헤드를 유지하면서 모델 용량을 확장할 수 있게 합니다. 이 아키텍처를 기반으로, 우리는 중간 훈련 및 훈련 후 단계에서 Qwen3-30B-A3B-Base 모델에 업사이클링 전략을 적용하여 개발된 33B 매개변수의 LLM인 GroveMoE-Base와 GroveMoE-Inst를 제시합니다. GroveMoE 모델은 토큰 복잡도에 따라 3.14-3.28B 매개변수를 동적으로 활성화하며, 유사하거나 더 큰 규모의 SOTA 오픈소스 모델과 비슷한 성능을 달성합니다.
대형 언어 모델은 추상적 추론에서 뛰어난 성능을 보이지만, 구체적인 에이전트 추론 능력은 아직 크게 탐구되지 않았다. 본 연구에서는 언어 모델이 물리적 상호작용, 도구 사용, 다중 에이전트 조정과 같은 구체적 작업에서 어떻게 추론하는지를 평가하기 위한 포괄적인 프레임워크인 OmniEAR을 제안한다. 기존 벤치마크가 사전 정의된 도구 세트나 명시적인 협업 지침을 제공하는 것과 달리, OmniEAR은 에이전트가 작업 요구에 따라 능력을 동적으로 획득하고 자율적으로 조정 전략을 결정하도록 요구한다. 텍스트 기반 환경 표현을 통해, 우리는 가정 및 산업 영역에 걸친 1,500개 시나리오에서 연속적인 물리적 특성과 복잡한 공간적 관계를 모델링한다. 체계적인 평가 결과, 모델이 제약 조건에서 추론해야 할 때 성능이 심각하게 저하되는 것으로 나타났다: 명시적 지침에서는 85-96%의 성공률을 보였으나, 도구 추론에서는 56-85%, 암묵적 협업에서는 63-85%로 성능이 하락했으며, 복합 작업에서는 50% 이상의 실패율을 보였다. 놀랍게도, 완전한 환경 정보는 조정 성능을 저하시켜, 모델이 작업 관련 제약 조건을 필터링할 수 없음을 나타냈다. 미세 조정은 단일 에이전트 작업에서 극적인 개선(0.6%에서 76.3%)을 보였으나, 다중 에이전트 작업에서는 최소한의 개선(1.5%에서 5.5%)만을 보여 근본적인 아키텍처적 한계를 드러냈다. 이러한 결과는 구체적 추론이 현재 모델이 해결할 수 있는 문제와 근본적으로 다른 도전 과제를 제기함을 보여주며, OmniEAR이 구체적 AI 시스템을 평가하고 발전시키기 위한 엄격한 벤치마크로 자리매김함을 입증한다. 본 연구의 코드와 데이터는 보충 자료에 포함되어 있으며, 논문 채택 시 공개될 예정이다.
자기 보상 언어 모델(Self-Rewarding Language Models)은 대규모 언어 모델(LLMs)이 응답을 생성함과 동시에 LLM-as-a-Judge 프롬프팅을 통해 자신의 출력을 평가하고, 반복적인 직접 선호 최적화(Direct Preference Optimization, DPO)를 통해 생성 능력을 동적으로 개선하는 아키텍처를 제안한다. 그러나 우리의 분석은 기존 자기 보상 패러다임의 중요한 한계를 밝혀냈다: 선택된 응답과 거부된 응답의 동기화된 개선은 대조 샘플 간의 표현적 차이를 점점 좁혀 효과적인 선호 학습을 저해한다. 우리는 학습 신호를 유지하기 위해 과거, 현재, 미래의 모델 생성을 전략적으로 조율하는 시간적 자기 보상 언어 모델(Temporal Self-Rewarding Language Models)을 제안한다. 우리의 이중 단계 프레임워크는 (1) 과거 초기 모델의 출력을 사용하여 거부된 응답을 고정하는 '고정된 거부'(Anchored Rejection)와 (2) 차세대 모델 예측을 사용하여 선택된 샘플을 동적으로 선별하는 '미래 지향적 선택'(Future-Guided Chosen)을 도입한다. 세 가지 모델 패밀리(Llama, Qwen, Mistral)와 다양한 모델 크기(Llama3B/8B/70B)에 걸친 광범위한 실험은 동일한 계산 자원을 사용한 자기 보상 방식과 비교하여 우리의 방법으로 훈련했을 때 상당한 개선을 보여준다. 예를 들어, Llama3.1-8B는 우리의 방법으로 AlpacaEval 2.0에서 29.44의 승률을 달성하며, 자기 보상 기준선(19.69)을 9.75점 앞질렀다. 특히, 우리의 방법은 수학적 추론(GSM8K), 지식 기반 질의응답(ARC, TruthfulQA), 코드 생성(HumanEval) 작업에서도 우수한 분포 외 일반화 능력을 보였으며, 이러한 훈련 데이터를 특별히 수집하지 않았음에도 불구하고 그러한 결과를 보였다.
대규모 추론 모델은 테스트 시점의 확장을 통해 강력한 성능을 달성하지만, 특히 짧은 입력 프롬프트를 처리할 때 과도한 토큰 생성으로 인해 상당한 계산 오버헤드가 발생합니다. 희소 주의 메커니즘은 지연 시간과 메모리 사용량을 줄일 수 있지만, 기존 방법들은 장기간 생성 추론 동안 누적된 오류로 인해 상당한 정확도 저하를 겪습니다. 이러한 방법들은 일반적으로 높은 토큰 보유율이나 비용이 많이 드는 재훈련을 요구합니다. 우리는 추론 작업을 위한 훈련이 필요 없는 희소 주의 메커니즘인 LessIsMore를 소개합니다. 이는 전통적인 헤드별 지역 최적화에 의존하기보다는 전역 주의 패턴을 활용합니다. LessIsMore는 지역 주의 헤드에서의 토큰 선택을 최근의 문맥 정보와 통합하여, 향후 디코딩 레이어를 위한 통합된 크로스-헤드 토큰 순위를 가능하게 합니다. 이 통합된 선택은 헤드별로 별도의 토큰 하위 집합을 유지할 필요를 피함으로써 일반화와 효율성을 개선합니다. 다양한 추론 작업과 벤치마크에 대한 평가 결과, LessIsMore는 전체 주의 대비 평균 1.1배의 디코딩 속도 향상을 달성하면서도 정확도를 유지하거나 경우에 따라 개선하는 것으로 나타났습니다. 더욱이, LessIsMore는 정확도 손실 없이 2배 적은 토큰에 주의를 기울이며, 기존의 희소 주의 방법 대비 1.13배의 종단 간 속도 향상을 달성합니다.
Open X-Embodiment(OXE)와 같은 대규모 데이터셋으로 훈련된 범용 로봇 정책은 다양한 작업에서 강력한 성능을 보여줍니다. 그러나 이러한 정책들은 훈련 데이터의 분포를 벗어난 상황에서는 일반화 능력이 제한되는 경우가 많습니다. 본 논문에서는 이러한 제한된 일반화 능력의 근본적인 원인을 조사합니다. 우리는 작업과 무관한 특성에 의존하는 단축 학습(shortcut learning)이 일반화의 주요 장애물임을 확인했습니다. 포괄적인 이론적 및 실증적 분석을 통해, 우리는 단축 학습의 두 가지 주요 원인을 밝혀냈습니다: (1) 개별 하위 데이터셋 내의 제한된 다양성, 그리고 (2) 하위 데이터셋 간의 상당한 분포 차이로 인한 데이터셋 단편화. 이러한 문제는 OXE와 같은 대규모 데이터셋의 고유한 구조에서 비롯됩니다. 이러한 데이터셋은 일반적으로 다양한 환경과 구현체에서 독립적으로 수집된 여러 하위 데이터셋으로 구성됩니다. 우리의 연구 결과는 단축 학습을 줄이고 범용 로봇 정책의 일반화 능력을 향상시킬 수 있는 데이터셋 수집 전략에 대한 중요한 통찰을 제공합니다. 또한, 새로운 대규모 데이터를 획득하기 어려운 상황에서, 신중하게 선택된 로봇 데이터 증강 전략이 기존 오프라인 데이터셋에서 단축 학습을 효과적으로 줄이고, 시뮬레이션 및 실제 환경에서 범용 로봇 정책(예: pi_0)의 일반화 능력을 개선할 수 있음을 입증했습니다. 더 많은 정보는 https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/에서 확인할 수 있습니다.
최근의 플로우 기반 이미지 편집 모델들은 다양한 작업에서 범용적인 능력을 보여주지만, 특히 대규모 형태 변환과 관련된 도전적인 시나리오에서는 특화하기 어려운 경우가 많습니다. 이러한 구조적 편집을 수행할 때, 이러한 방법들은 의도한 형태 변화를 달성하지 못하거나 의도하지 않은 영역을 변경하여 배경 품질이 저하되는 문제가 발생합니다. 우리는 Follow-Your-Shape라는 훈련이 필요 없고 마스크가 필요 없는 프레임워크를 제안합니다. 이 프레임워크는 객체 형태의 정밀하고 제어 가능한 편집을 지원하면서도 비대상 콘텐츠를 엄격하게 보존합니다. 인버전과 편집 경로 사이의 차이에서 영감을 받아, 우리는 인버전 경로와 디노이징 경로 간의 토큰 단위 속도 차이를 비교하여 Trajectory Divergence Map(TDM)을 계산합니다. TDM은 편집 가능한 영역을 정확히 찾아내고, 안정적이고 충실한 편집을 보장하는 Scheduled KV Injection 메커니즘을 안내합니다. 엄격한 평가를 위해, 우리는 형태 인식 편집을 위해 특별히 선별된 120개의 새로운 이미지와 풍부한 프롬프트 쌍으로 구성된 새로운 벤치마크인 ReShapeBench을 소개합니다. 실험 결과, 우리의 방법은 특히 대규모 형태 교체가 필요한 작업에서 우수한 편집성과 시각적 충실도를 달성함을 보여줍니다.
전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 대규모 언어 모델(Large Language Models, LLMs)의 확장을 위한 주요 패러다임으로 자리 잡았습니다. 강력한 성능과 계산 효율성을 제공하지만, DeepSeek-V3-0324 및 Kimi-K2-Instruct와 같은 대규모 MoE 기반 LLM은 배포 시 상당한 메모리 요구 사항으로 인해 심각한 문제를 야기합니다. 최근 연구에서는 이러한 문제를 해결하기 위해 MoE 압축을 탐구했지만, 기존 방법들은 적당한 압축률에서도 상당한 정확도 하락(예: 상대적으로 7-14%)을 겪는 경우가 많습니다. 본 논문은 최소한의 정확도 하락만으로 모델 압축을 달성하는 새로운 기반 전문가 혼합(Mixture-of-Basis-Experts, MoBE) 방법을 소개합니다. 구체적으로, 각 전문가의 up/gate 행렬은 W = AB와 같은 랭크 분해를 통해 분해되며, 여기서 행렬 A는 각 전문가마다 고유합니다. 상대적으로 더 큰 행렬 B는 주어진 MoE 레이어 내의 모든 전문가들이 공유하는 기반 행렬 {Bi}의 선형 조합으로 재파라미터화됩니다. 이 분해는 원래의 가중치 행렬에 대한 재구성 오차를 최소화함으로써 학습됩니다. 실험 결과, MoBE는 기존 연구에 비해 현저히 낮은 정확도 하락을 달성함을 보여줍니다. 예를 들어, MoBE는 Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B), Kimi-K2-Instruct (1T)의 파라미터 수를 24%-30% 줄이면서도 단 1%-2%의 정확도 하락(상대적으로 측정 시 약 2% 하락)만을 기록합니다.
분류(Classification)는 AI 응용 분야에서 가장 널리 사용되는 작업 중 하나로, 데이터를 필터링, 정렬 및 범주화하는 첫 번째 단계로 자주 활용됩니다. 현대 AI 시스템은 대량의 입력 데이터를 처리해야 하며, 초기 파이프라인 단계에서 발생한 오류가 후속 단계로 전파될 수 있기 때문에 높은 효율성과 정확도를 달성하는 것이 중요합니다. 또한, 분류 요구사항은 사용자 요구에 따라 동적으로 변화할 수 있어, 강력한 제로샷(zero-shot) 능력을 갖춘 모델이 필요합니다. 생성형 대형 언어 모델(Generative LLMs)은 다재다능함으로 인해 제로샷 분류에서 주류로 자리 잡았지만, 지시 사항을 일관되게 따르지 못하고 계산 효율성이 낮다는 단점이 있습니다. RAG 파이프라인에서 리랭커(reranker)로 흔히 사용되는 크로스 인코더(Cross-encoders)는 다른 문제에 직면해 있습니다. 이들은 텍스트-레이블 쌍을 순차적으로 처리해야 하기 때문에 레이블 집합이 클 경우 효율성이 크게 저하됩니다. 임베딩 기반 접근법은 좋은 효율성을 제공하지만, 논리적 및 의미적 제약이 포함된 복잡한 시나리오에서는 어려움을 겪습니다. 본 연구에서는 GLiNER 아키텍처를 시퀀스 분류 작업에 적용한 새로운 방법인 GLiClass를 제안합니다. 이 방법은 임베딩 기반 방법과 비슷한 수준의 강력한 정확도와 효율성을 달성하면서도, 제로샷 및 퓨샷(few-shot) 학습 시나리오에 필요한 유연성을 유지합니다. 또한, 다중 레이블 텍스트 분류를 위해 근접 정책 최적화(Proximal Policy Optimization, PPO)를 적용하여 데이터가 희소한 조건이나 인간 피드백을 통해 분류기를 학습할 수 있도록 했습니다.
이 세상의 대부분의 조직 데이터는 문서 형태로 저장되며, 시각적 검색은 이러한 모든 문서에서 집단 지능을 끌어내는 데 중요한 역할을 합니다. 그러나 기존의 벤치마크는 영어로 된 문서 검색에 초점을 맞추거나 단일 페이지 이미지에 대한 다국어 질의응답만을 고려합니다. 이러한 격차를 해소하기 위해, 우리는 긴 문서에서 질문 주도형 다중모드 검색을 위해 설계된 다국어 벤치마크인 VisR-Bench를 소개합니다. 우리의 벤치마크는 1.2K개의 문서에 걸쳐 35K개 이상의 고품질 질문-응답 쌍으로 구성되어 있으며, 다중모드 검색의 세밀한 평가를 가능하게 합니다. VisR-Bench는 16개 언어와 세 가지 질문 유형(그림, 텍스트, 표)을 포괄하여 다양한 언어적 및 질문적 범위를 제공합니다. 기존 데이터셋과 달리, 우리는 명시적인 답변이 없는 질문을 포함시켜 모델이 표면적인 키워드 매칭에 의존하는 것을 방지합니다. 우리는 텍스트 기반 방법, 다중모드 인코더, 그리고 MLLM을 포함한 다양한 검색 모델을 평가하여 그들의 강점과 한계를 파악합니다. 우리의 결과는 MLLM이 텍스트 기반 및 다중모드 인코더 모델을 크게 능가하지만, 구조화된 표와 저자원 언어에서 여전히 어려움을 겪는 것을 보여주며, 다국어 시각적 검색의 주요 과제를 강조합니다.
체인 오브 사고(CoT) 프롬프팅을 사용하는 대형 언어 모델(LLMs)은 복잡한 추론에서 뛰어난 성능을 보이지만, 상당한 중복성을 포함한 장황한 사고 과정을 생성하여 추론 비용을 증가시키고 효율성을 저하시킵니다. 우리는 이러한 중복성을 식별하기 위해 개별 추론 단계의 정보 기여도를 정량화하는 메트릭인 단계 엔트로피(step entropy)를 기반으로 한 새로운 CoT 압축 프레임워크를 소개합니다. 수학적 추론 벤치마크에 대한 이론적 분석과 광범위한 실증적 검증을 통해, 낮은 엔트로피를 가진 단계들이 실제로 매우 중복적임을 입증했습니다. 우리의 실험 결과, DeepSeek-R1-7B, 14B 및 Qwen3-8B 모델에서 낮은 엔트로피 중간 단계의 놀라운 80%를 최종 답변 정확도의 미미한 저하만으로 제거할 수 있음을 보여주었습니다. 이는 무작위 또는 높은 엔트로피 단계를 제거하는 것과는 극명한 대조를 이루며, 후자의 경우 추론 성능을 심각하게 저해합니다. 이를 바탕으로, 우리는 지도 미세 조정(SFT)과 그룹 상대 정책 최적화(GRPO) 강화 학습을 결합한 새로운 두 단계 훈련 전략을 제안합니다. 이 접근법은 [SKIP] 토큰을 전략적으로 통합함으로써 LLM이 추론 중에 압축된 CoT를 자율적으로 생성하도록 학습할 수 있게 합니다. 우리의 방법은 정확도를 엄격하게 유지하면서 LLM 추론 효율성을 크게 향상시켜, 실제 LLM 배포에 대한 중요한 시사점을 제공하고 추론 구조에 대한 더 깊은 이해를 가능하게 합니다.
고해상도 시각 합성 능력을 대형 언어 모델(LLMs)에 통합하면서도 강력한 추론 능력을 유지하는 데 대한 관심이 높아지고 있다. 기존의 방법들은 LLMs를 직접 학습시키거나 LLMs와 확산 모델(diffusion models)을 연결하는 방식으로 접근하지만, 백본 LLMs가 사전 학습 과정에서 이미지 표현을 접하지 못했기 때문에 학습 비용이 높은 문제가 있다. 우리는 Bifrost-1을 제안하는데, 이는 사전 학습된 다중모달 LLMs(MLLMs)와 확산 모델을 패치 수준의 CLIP 이미지 임베딩을 잠재 변수로 사용하여 연결하는 통합 프레임워크이다. 이러한 패치 수준의 이미지 임베딩은 MLLM의 CLIP 시각 인코더와 자연스럽게 정렬되어 있으며, 확산 모델에 ControlNet의 경량화된 적응을 통해 통합된다. MLLM의 원래 다중모달 추론 능력을 유지하기 위해, 패치 수준의 이미지 임베딩을 예측할 때 원래 MLLM 파라미터로 초기화된 시각 생성 분기를 MLLM에 추가한다. 사전 학습된 MLLMs와 확산 모델을 패치 수준의 CLIP 잠재 변수로 원활하게 통합함으로써, 우리의 프레임워크는 높은 학습 효율성과 함께 고해상도의 제어 가능한 이미지 생성을 가능하게 한다. 실험 결과, Bifrost-1은 시각적 충실도와 다중모달 이해 측면에서 이전 방법들과 비교하여 비슷하거나 더 나은 성능을 달성하면서도 학습 과정에서 상당히 낮은 계산 비용을 보여준다. 또한, 우리의 설계 선택의 효과를 입증하는 포괄적인 절제 연구를 제공한다.
오픈 웨이트(Open-weight) AI 시스템은 향상된 투명성, 개방형 연구, 분산형 접근성 등 독특한 장점을 제공한다. 그러나 이러한 시스템은 가중치나 활성화를 수정함으로써 유해한 행동을 효율적으로 유도할 수 있는 변조 공격에 취약하다. 현재로서는 오픈 웨이트 모델 리스크 관리에 대한 견고한 과학적 체계가 아직 마련되지 않았다. 기존의 안전성 미세 조정 방법 및 기타 사후 훈련 기술은 수십 단계 이상의 적대적 미세 조정에 대항할 수 있도록 대형 언어 모델(LLM)을 강화하는 데 어려움을 겪고 있다. 본 논문에서는 훈련 데이터에서 이중 사용 주제에 관한 텍스트를 필터링함으로써 원치 않는 기능을 방지하고 더 강력한 변조 방지 안전장치로 활용할 수 있는지 조사한다. 우리는 확장 가능한 데이터 필터링을 위한 다단계 파이프라인을 소개하고, 이를 통해 LLM에서 생물 위협 대리 지식을 최소화하는 실현 가능하고 효과적인 방법을 제시한다. 우리는 6.9B 매개변수 모델을 처음부터 사전 훈련시켜, 최대 10,000단계와 3억 토큰의 생물 위협 관련 텍스트에 대한 적대적 미세 조정 공격에 상당한 저항성을 보임을 확인했다. 이는 기존의 사후 훈련 기준선을 한 차원 이상 능가하는 성과를 보였으며, 관련 없는 기능에는 어떠한 저하도 관찰되지 않았다. 그러나 필터링된 모델은 내재화된 위험 지식을 갖고 있지 않지만, 이러한 정보가 문맥상 제공될 경우(예: 검색 도구 보강을 통해) 여전히 이를 활용할 수 있음을 발견했다. 이는 심층 방어 접근 방식의 필요성을 보여준다. 전반적으로, 이러한 연구 결과는 오픈 웨이트 AI 시스템을 위한 방어 계층으로서 사전 훈련 데이터 큐레이션의 가능성을 입증하는 데 기여한다.
최신 사실 확인 시스템은 대규모로 유포되는 허위 정보를 방어하기 위해 자율적인 대형 언어 모델(LLM) 기반 에이전트를 활용하여 복잡한 주장을 더 작은 하위 주장으로 분해하고, 각 하위 주장을 개별적으로 검증하며, 부분적인 결과를 종합하여 근거(판단에 대한 설명적 논리)를 포함한 결론을 도출한다. 이러한 시스템의 보안은 매우 중요하며, 보안이 취약한 사실 확인 시스템은 오히려 허위 정보를 확산시킬 수 있다. 본 연구는 이러한 에이전트 기반 사실 확인 시스템을 대상으로 한 최초의 중독 공격 프레임워크인 Fact2Fiction을 소개한다. Fact2Fiction은 분해 전략을 모방하고 시스템이 생성한 근거를 활용하여 하위 주장 검증을 훼손하는 맞춤형 악성 증거를 제작한다. 다양한 중독 예산 범위에서 Fact2Fiction은 기존 최신 공격 대비 8.9\%--21.2\% 더 높은 공격 성공률을 달성함을 실험을 통해 입증하였다. Fact2Fiction은 현재의 사실 확인 시스템이 지닌 보안 취약점을 드러내며, 방어적 대책의 필요성을 강조한다.
구어로 표현된 수학식을 변환하는 작업은 음성을 엄격하게 구조화된 기호 표현으로 전사하면서도 방정식 발음에 내재된 모호성을 해결해야 하는 어려운 과제이다. 자동 음성 인식(ASR)과 언어 모델(LM) 분야에서 상당한 진전이 이루어졌음에도 불구하고, 구어 수학식을 LaTeX으로 변환하는 문제는 아직 충분히 탐구되지 않았다. 이 작업은 강의 전사나 노트 작성과 같은 교육 및 연구 분야에 직접적으로 적용될 수 있다. ASR 후처리를 기반으로 한 기존 연구는 2번의 전사를 요구하며, 고립된 방정식에만 초점을 맞추고, 제한된 테스트 세트를 사용하며, 훈련 데이터나 다국어 지원을 제공하지 않는다. 이러한 문제를 해결하기 위해, 우리는 영어와 러시아어로 된 66,000개 이상의 인간 주석이 달린 수학 방정식 및 문장의 오디오 샘플로 구성된 첫 번째 완전한 오픈소스 대규모 데이터셋을 제시한다. 이 데이터셋은 다양한 과학 분야에서 추출되었다. ASR 후처리 모델과 퓨샷 프롬프팅 외에도, 우리는 오디오 언어 모델을 적용하여 MathSpeech 벤치마크에서 방정식 변환에 대해 비교 가능한 문자 오류율(CER) 결과를 보여준다(28% 대 30%). 반면, 제안된 S2L-방정식 벤치마크에서는 LaTeX 포맷팅 아티팩트를 고려한 후에도 우리의 모델이 MathSpeech 모델을 40% 이상의 큰 차이로 능가한다(27% 대 64%). 우리는 수학 문장 인식을 위한 첫 번째 벤치마크(S2L-문장)를 구축하고 40%의 방정식 CER을 달성한다. 이 작업은 수학 콘텐츠 인식에 초점을 맞춘 다중 모드 AI의 미래 발전을 위한 기반을 마련한다.
많은 이들이 생성적 기계 학습(ML) 및 인공지능(AI) 모델의 개발과 배포가 사전 훈련된 모델을 특정 하위 작업에 맞게 적응하고 미세 조정하는 독특한 패턴을 따른다는 것을 관찰해 왔다. 그러나 이러한 상호작용의 구조를 조사한 실증적 연구는 제한적이다. 본 논문은 모델 개발을 위한 선도적인 동료 생산 플랫폼인 Hugging Face에 있는 186만 개의 모델을 분석한다. 모델 계보 트리(미세 조정된 모델을 기본 또는 부모 모델과 연결하는 네트워크)에 대한 우리의 연구는 크기와 구조가 매우 다양한 광범위한 미세 조정 계보를 보여준다. ML 모델을 연구하기 위해 진화 생물학적 렌즈를 사용하여, 우리는 모델 메타데이터와 모델 카드를 활용해 모델 계열 간의 유전적 유사성과 특성 변이를 측정한다. 우리는 모델들이 가족적 유사성을 보이는 경향이 있음을 발견했는데, 이는 동일한 모델 계열에 속할 때 그들의 유전적 표지와 특성이 더 많은 중첩을 보인다는 것을 의미한다. 그러나 이러한 유사성은 무성 생식의 표준 모델과는 특정 방식에서 벗어나는데, 변이가 빠르고 방향성이 있기 때문에 두 '형제' 모델이 부모/자식 쌍보다 더 많은 유사성을 보이는 경향이 있다. 이러한 변이의 방향성 표류에 대한 추가 분석은 개방형 기계 학습 생태계에 대한 질적 통찰을 제공한다: 라이선스는 직관과 달리 제한적인 상업용 라이선스에서 허용적이거나 카피레프트 라이선스로 표류하며, 이는 종종 상위 라이선스의 조건을 위반하는 경우이다; 모델은 다국어 호환성에서 영어 전용 호환성으로 진화한다; 모델 카드는 길이가 줄어들고 템플릿과 자동 생성 텍스트로 더 자주 전환함으로써 표준화된다. 전반적으로, 이 연구는 모델 미세 조정에 대한 실증적 이해를 위한 한 걸음을 내딛으며, 생태학적 모델과 방법이 새로운 과학적 통찰을 제공할 수 있음을 시사한다.
대규모 언어 모델이 일상생활에 점점 더 통합됨에 따라, 오디오는 인간과 AI 간 상호작용의 주요 인터페이스로 부상하고 있다. 그러나 이러한 편의성은 새로운 취약점을 야기하며, 오디오를 공격자들의 잠재적 공격 표면으로 만들고 있다. 본 연구는 최신 오디오 언어 모델을 조작하여 유해한 콘텐츠를 생성할 수 있는 2단계 적대적 오디오 공격 프레임워크인 WhisperInject를 소개한다. 우리의 방법은 인간 청취자에게는 무해한 수준의 미세한 오디오 입력 변조를 사용한다. 첫 번째 단계에서는 새로운 보상 기반 최적화 방법인 강화 학습과 투영 경사 하강법(Reinforcement Learning with Projected Gradient Descent, RL-PGD)을 사용하여 대상 모델이 자체 안전 프로토콜을 우회하고 유해한 기본 응답을 생성하도록 유도한다. 이 기본 유해 응답은 두 번째 단계인 페이로드 주입(Payload Injection)의 대상이 되며, 여기서는 투영 경사 하강법(Projected Gradient Descent, PGD)을 사용하여 날씨 질문이나 인사 메시지와 같은 무해한 오디오 캐리어에 삽입될 미세한 변조를 최적화한다. 엄격한 StrongREJECT, LlamaGuard 및 인간 평가(Human Evaluation) 안전 평가 프레임워크에서 검증된 실험 결과, Qwen2.5-Omni-3B, Qwen2.5-Omni-7B 및 Phi-4-Multimodal 모델에서 86% 이상의 성공률을 보였다. 본 연구는 이론적 익스플로잇을 넘어 실질적이고 은밀한 AI 행동 조작 방법을 제시함으로써, 새로운 종류의 실용적 오디오 기반 위협을 입증한다.
실제 세계의 도전 과제를 반영한 복잡하고 상호작용적인 환경 내에서 AI 에이전트를 평가하는 것은 그들의 실질적인 능력을 이해하는 데 매우 중요합니다. 기존의 에이전트 벤치마크는 도구 사용이나 구조화된 작업 수행 능력을 효과적으로 평가하지만, 종종 장기적이고 점점 확장되는 맥락에서 지속적이고 자기 주도적인 추론을 요구하는 탐색적 환경에서 에이전트가 자율적으로 작동하는 능력을 완전히 포착하지 못합니다. 더 강력한 내재적 추론 능력을 장기적으로 갖춘 에이전트의 개발을 촉진하기 위해, 우리는 Infocom 인터랙티브 픽션 게임 제품군을 기반으로 한 TextQuests 벤치마크를 소개합니다. 인간 플레이어가 30시간 이상 소요하고 수백 가지의 정확한 행동을 요구하는 이러한 텍스트 기반 어드벤처 게임은 AI 에이전트의 집중적이고 상태 유지적인 작업 수행 능력을 평가하는 효과적인 대리 수단으로 기능합니다. 이 벤치마크는 외부 도구 사용을 배제함으로써 LLM 에이전트의 자체적인 문제 해결 능력을 평가하도록 특별히 설계되었으며, 시행착오 학습과 단일 상호작용 세션 내에서의 지속적인 문제 해결이 필요한 탐색적 환경에서의 내재적 장기 맥락 추론 능력에 초점을 맞춥니다. 우리는 TextQuests를 https://textquests.ai에서 공개합니다.