번역이 포함된 일일 선별된 AI 연구 논문
세계 최초의 오픈 웨이트(open-weight) 대규모 하이브리드 어텐션 추론 모델인 MiniMax-M1을 소개합니다. MiniMax-M1은 하이브리드 Mixture-of-Experts(MoE) 아키텍처와 라이트닝 어텐션 메커니즘이 결합된 방식으로 구동됩니다. 이 모델은 총 4560억 개의 파라미터를 포함하며, 토큰당 459억 개의 파라미터가 활성화되는 이전 모델인 MiniMax-Text-01을 기반으로 개발되었습니다. M1 모델은 기본적으로 100만 토큰의 컨텍스트 길이를 지원하며, 이는 DeepSeek R1의 컨텍스트 크기의 8배에 해당합니다. 또한, MiniMax-M1의 라이트닝 어텐션 메커니즘은 테스트 시간 계산의 효율적인 확장을 가능하게 합니다. 이러한 특성으로 인해 M1은 긴 입력을 처리하고 깊이 사고해야 하는 복잡한 작업에 특히 적합합니다. MiniMax-M1은 샌드박스 기반의 실제 소프트웨어 엔지니어링 환경을 포함한 다양한 문제에 대해 대규모 강화 학습(RL)을 사용하여 학습되었습니다. M1의 RL 학습에 대한 내재적인 효율성 이점 외에도, 우리는 RL 효율성을 더욱 향상시키기 위한 새로운 RL 알고리즘인 CISPO를 제안합니다. CISPO는 토큰 업데이트 대신 중요도 샘플링 가중치를 클리핑함으로써 다른 경쟁 RL 변형들을 능가합니다. 하이브리드 어텐션과 CISPO의 결합은 MiniMax-M1의 전체 RL 학습이 512개의 H800 GPU에서 단 3주 만에 완료되도록 하며, 이때의 임대 비용은 단 534,700달러에 불과합니다. 우리는 각각 40K와 80K의 사고 예산을 가진 MiniMax-M1 모델의 두 가지 버전을 공개하며, 40K 모델은 80K 학습의 중간 단계를 나타냅니다. 표준 벤치마크에서의 실험 결과, 우리의 모델은 원본 DeepSeek-R1 및 Qwen3-235B와 같은 강력한 오픈 웨이트 모델들과 비교할 만하거나 더 우수한 성능을 보였으며, 특히 복잡한 소프트웨어 엔지니어링, 도구 활용, 그리고 긴 컨텍스트 작업에서 강점을 보였습니다. MiniMax-M1은 https://github.com/MiniMax-AI/MiniMax-M1에서 공개적으로 제공됩니다.
과학적 발견은 점점 더 정보 집약적인 과학 데이터와 도메인 특화 전문 지식을 기반으로 한 복잡한 다중 모드 추론에 의존하고 있습니다. 전문가 수준의 과학 벤치마크를 통해 강화된 과학적 다중 모드 대형 언어 모델(MLLMs)은 이러한 발견 과정을 현실적인 워크플로에서 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 현재의 과학 벤치마크는 주로 MLLMs의 지식 이해 능력을 평가하는 데 초점을 맞추고 있어, 이들의 인지 및 추론 능력을 충분히 평가하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 과학적 인지 능력을 세 가지 상호 연결된 수준(과학적 신호 인지, 과학적 속성 이해, 과학적 비교 추론)을 통해 평가하는 '과학자 첫 시험(SFE)' 벤치마크를 제안합니다. 구체적으로, SFE는 5개의 고부가가치 학문 분야에 걸친 66개의 다중 모드 작업을 포함하는 830개의 전문가 검증 VQA 쌍으로 구성됩니다. 광범위한 실험 결과, 현재 최첨단 GPT-3와 InternVL-3는 SFE에서 각각 34.08%와 26.52%의 성적을 기록하며, 과학적 영역에서 MLLMs의 개선이 필요함을 보여줍니다. 우리는 SFE에서 얻은 통찰이 AI 강화 과학 발견의 추가 발전을 촉진하기를 바랍니다.
딥 리서치 에이전트(Deep Research Agents)는 LLM 기반 에이전트의 주요 범주 중 하나입니다. 이들은 다단계 웹 탐색, 타겟팅된 정보 검색, 그리고 고차원적 통합을 자율적으로 조율함으로써 방대한 양의 온라인 정보를 분석가 수준의 인용이 풍부한 보고서로 변환합니다. 이는 수 시간에 걸친 수동 데스크 리서치를 단 몇 분으로 압축하는 효과를 가져옵니다. 그러나 이러한 에이전트의 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크는 아직 부재합니다. 이러한 격차를 해소하기 위해, 우리는 22개의 다양한 분야에 걸쳐 도메인 전문가들이 세심하게 설계한 100개의 박사 수준 연구 과제로 구성된 DeepResearch Bench를 제시합니다. DRAs를 평가하는 것은 본질적으로 복잡하고 노동 집약적인 작업입니다. 따라서 우리는 인간의 판단과 강력한 일치를 달성하는 두 가지 새로운 방법론을 제안합니다. 첫 번째는 생성된 연구 보고서의 품질을 평가하기 위한 적응형 기준을 갖춘 참조 기반 방법입니다. 다른 프레임워크는 DRA의 정보 검색 및 수집 능력을 평가하기 위해 효과적인 인용 수와 전반적인 인용 정확도를 평가하는 방식으로 소개됩니다. 우리는 실용적인 LLM 기반 에이전트의 개발을 가속화하기 위해 DeepResearch Bench와 이러한 프레임워크의 주요 구성 요소를 https://github.com/Ayanami0730/deep_research_bench에서 오픈소스로 공개했습니다.
우리는 Autoregressive(AR) Transformer와 확산 모델(diffusion model)을 결합한 최초의 이미지 생성 모델인 TransDiff를 소개한다. 이 공동 모델링 프레임워크에서 TransDiff는 레이블과 이미지를 고수준의 의미론적 특징으로 인코딩하고, 확산 모델을 사용하여 이미지 샘플의 분포를 추정한다. ImageNet 256x256 벤치마크에서 TransDiff는 독립적인 AR Transformer 또는 확산 모델 기반의 다른 이미지 생성 모델들을 크게 능가한다. 구체적으로, TransDiff는 Fréchet Inception Distance(FID) 1.61과 Inception Score(IS) 293.4를 달성하며, 최신 AR Transformer 기반 방법 대비 2배 빠른 추론 지연 시간과 확산 모델 단독 기반 모델 대비 112배 빠른 추론 속도를 제공한다. 더 나아가, TransDiff 모델을 기반으로 Multi-Reference Autoregression(MRAR)이라는 새로운 이미지 생성 패러다임을 제안한다. MRAR은 다음 이미지를 예측함으로써 자기회귀적 생성을 수행하며, 이전에 생성된 여러 이미지를 참조할 수 있게 함으로써 더 다양한 표현을 학습하고 후속 반복에서 생성된 이미지의 품질을 향상시킨다. MRAR을 적용함으로써 TransDiff의 성능이 개선되어 FID가 1.61에서 1.42로 감소한다. 우리는 TransDiff가 이미지 생성 분야에서 새로운 지평을 열 것으로 기대한다.
본 논문에서는 대규모 웹 지식 인덱스에 최적화된 고처리량 검색 강화 생성 시스템인 DoTA-RAG(Dynamic-of-Thought Aggregation RAG)를 소개한다. 기존 RAG 파이프라인은 대규모 및 다양한 데이터셋에서 높은 지연 시간과 제한된 정확도 문제를 겪는 경우가 많다. DoTA-RAG는 이러한 문제를 해결하기 위해 쿼리 재작성, 특화된 하위 인덱스로의 동적 라우팅, 그리고 다단계 검색 및 순위 지정의 세 단계 파이프라인을 도입한다. 또한, FineWeb-10BT 코퍼스를 재임베딩하여 우수한 임베딩 모델을 평가 및 선정함으로써 검색 성능을 더욱 향상시켰다. 더불어, 다양한 WebOrganizer 주제와 형식을 아우르는 DataMorgana 설정을 통해 생성된 500개의 질문으로 구성된 다양한 Q&A 데이터셋을 구축하였다. DoTA-RAG는 LiveRAG 사전 구축 벡터 저장소를 사용한 기준점 0.752에서 1.478로 답변 정확도 점수를 향상시키면서도 낮은 지연 시간을 유지하였으며, Live Challenge Day에서 0.929의 정확도 점수를 달성하였다. 이러한 결과는 DoTA-RAG가 빠르고 신뢰할 수 있는 대규모 및 진화하는 지식 소스 접근이 필요한 분야에서의 실용적 배포 가능성을 강조한다.
대형 추론 모델의 최근 발전은 복잡한 단계별 추론을 가능하게 했지만, 종종 과도한 사고를 유발하여 장황하고 중복된 출력을 초래함으로써 효율성을 저해하는 문제가 발생해 왔다. 본 연구에서는 "Wait" 및 "Hmm"과 같은 토큰으로 표시되는 명시적 자기 반성이 고급 추론에 필수적인지 여부를 검토한다. 우리는 이러한 토큰을 추론 과정에서 억제함으로써 명시적 자기 반성을 비활성화하는 간단하면서도 효과적인 접근법인 NoWait를 제안한다. 텍스트, 시각 및 비디오 추론 작업에 걸친 10개의 벤치마크에서 수행된 광범위한 실험 결과, NoWait는 다섯 가지 R1 스타일 모델 시리즈에서 사고의 연쇄적 궤적 길이를 최대 27%-51%까지 줄이면서도 모델의 유용성을 저해하지 않음을 보여준다. 따라서 NoWait는 효율적이고 유용성을 유지하는 다중 모드 추론을 위한 플러그 앤 플레이 솔루션을 제공한다.
우리는 초장기(즉, 며칠에서 몇 주에 걸친) 에고센트릭 비디오에 대한 추론을 위한 새로운 프레임워크인 Ego-R1을 소개합니다. 이 프레임워크는 강화 학습(RL)을 통해 훈련된 Ego-R1 에이전트가 조율하는 구조화된 도구 사고 연쇄(Chain-of-Tool-Thought, CoTT) 프로세스를 활용합니다. 인간의 문제 해결 전략에서 영감을 받은 CoTT는 복잡한 추론을 모듈화된 단계로 분해하며, RL 에이전트는 각 단계마다 특정 도구를 호출하여 시간적 검색 및 다중 모드 이해와 같은 작업을 해결하기 위한 하위 질문에 대해 반복적이고 협력적으로 답변합니다. 우리는 CoTT 데이터를 사용한 사전 훈련된 언어 모델의 지도 미세 조정(SFT)과 RL을 포함한 두 단계 훈련 패러다임을 설계하여 에이전트가 장기간 추론을 위해 단계별 도구를 동적으로 제안할 수 있도록 합니다. 훈련을 용이하게 하기 위해, 우리는 SFT를 위한 Ego-CoTT-25K와 RL을 위한 Ego-QA-4.4K로 구성된 Ego-R1 데이터셋을 구축했습니다. 또한, 우리의 Ego-R1 에이전트는 새롭게 구성된 일주일 분량의 비디오 QA 벤치마크인 Ego-R1 Bench에서 평가되며, 이 벤치마크는 하이브리드 소스에서 얻은 인간 검증 QA 쌍을 포함합니다. 광범위한 실험 결과는 Ego-R1 에이전트의 동적 도구 보강 사고 연쇄 추론이 초장기 에고센트릭 비디오 이해의 독특한 도전 과제를 효과적으로 해결할 수 있으며, 시간적 범위를 몇 시간에서 일주일로 크게 확장할 수 있음을 보여줍니다.
본 연구에서는 이산 확산 언어 모델(Discrete Diffusion Language Models, dLLMs)과 이산 확산 다중모달 언어 모델(Discrete Diffusion Multimodal Language Models, dMLLMs)에 대한 체계적인 조사를 제공한다. 자기회귀(autoregressive, AR) 모델과 달리, dLLMs와 dMLLMs는 다중 토큰, 병렬 디코딩 패러다임을 채택하며, 전체 어텐션(full attention)과 잡음 제거 기반 생성 전략을 사용한다. 이 패러다임은 자연스럽게 병렬 생성, 세밀한 출력 제어 가능성, 그리고 동적이며 응답 인식 가능한 지각을 가능하게 한다. 이러한 기능들은 기존의 AR 모델로는 달성하기 어려웠던 것들이다. 최근 들어, 산업 규모의 독점 d(M)LLMs뿐만 아니라 다수의 오픈소스 학술 d(M)LLMs가 자기회귀 모델과 비슷한 성능을 보이면서도 추론 속도에서 최대 10배의 가속을 달성한 사례가 증가하고 있다. 이산 확산 LLMs와 MLLMs의 발전은 크게 두 가지 영역의 진보에 의해 주도되었다. 첫 번째는 자기회귀 LLMs와 MLLMs의 개발로, 이는 방대한 양의 데이터, 벤치마크, 그리고 훈련 및 추론을 위한 기반 인프라를 축적했다. 두 번째 기여 영역은 이산 확산의 기반이 되는 수학적 모델의 진화이다. 이러한 진보들이 함께 작용하여 2025년 초에 dLLMs와 dMLLMs 연구의 급증을 촉발시켰다. 본 연구에서는 dLLM과 dMLLM 영역의 연구에 대한 포괄적인 개요를 제시한다. 우리는 dLLMs와 dMLLMs의 역사적 발전을 추적하고, 기반이 되는 수학적 프레임워크를 정형화하며, 대표적인 모델들을 분류한다. 또한, 훈련과 추론을 위한 핵심 기술들을 분석하고, 언어, 시각-언어, 생물학적 영역에서의 신흥 응용 사례들을 요약한다. 마지막으로, 연구와 배포를 위한 미래 방향에 대해 논의한다. 논문 모음: https://github.com/LiQiiiii/DLLM-Survey
데이터는 언어 모델이 기술과 지식을 습득하는 데 가장 중요한 역할을 합니다. 대규모로 잘 정리된 사전 학습 데이터셋의 부재는 비용이 많이 들고 접근하기 어려운 데이터 파이프라인을 초래합니다. 우리는 Essential-Web v1.0을 소개합니다. 이는 24조 토큰으로 구성된 데이터셋으로, 모든 문서가 주제, 형식, 내용 복잡도, 품질을 포함한 12개 범주의 분류 체계로 주석 처리되어 있습니다. 분류 체계 레이블은 Qwen2.5-32B-Instruct의 주석자 일치도와 3% 이내의 성능을 보이는 미세 조정된 0.5b 파라미터 모델인 EAI-Distill-0.5b에 의해 생성되었습니다. SQL 스타일 필터만을 사용하여 수학(-8.0%, SOTA 대비), 웹 코드(+14.3%), STEM(+24.5%), 의학(+8.6%) 분야에서 경쟁력 있는 웹 기반 데이터셋을 얻을 수 있습니다. Essential-Web v1.0은 HuggingFace에서 이용 가능합니다: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
자율성, 도구 사용, 적응형 추론을 통해 다단계 문제 해결을 요구하는 에이전트 작업(Agentic tasks)은 NLP와 AI의 발전에 있어 점점 더 중심적인 역할을 하고 있습니다. 그러나 기존의 명령 데이터는 도구 상호작용이 부족하며, 현재의 에이전트 벤치마크는 비용이 많이 드는 인간 주석에 의존하여 확장성이 제한됩니다. 우리는 TaskCraft를 소개합니다. TaskCraft는 실행 궤적과 함께 난이도 조절이 가능하고 다중 도구를 사용하며 검증 가능한 에이전트 작업을 자동으로 생성하는 워크플로입니다. TaskCraft는 깊이 기반 및 폭 기반 확장을 통해 원자적 작업을 확장하여 구조적이고 계층적으로 복잡한 과제를 생성합니다. 실험 결과는 이러한 작업이 생성 워크플로에서 프롬프트 최적화를 개선하고 에이전트 기반 모델의 지도 미세 조정을 강화하는 것을 보여줍니다. 우리는 에이전트 튜닝 및 평가를 위한 향후 연구를 지원하기 위해 약 36,000개의 다양한 난이도의 작업으로 구성된 대규모 합성 데이터셋을 제시합니다.
우리는 패치 수준에서 k-최근접 이웃 검색을 자기회귀적으로 통합함으로써 이미지 생성을 향상시키는 새로운 패러다임인 자기회귀적 검색 증강(AR-RAG)을 소개한다. 기존 방법들이 생성 전 단일 정적 검색을 수행하고 전체 생성을 고정된 참조 이미지에 조건화하는 것과 달리, AR-RAG는 각 생성 단계에서 상황 인식 검색을 수행하며, 이전에 생성된 패치를 쿼리로 사용하여 가장 관련성 높은 패치 수준의 시각적 참조를 검색하고 통합한다. 이를 통해 모델이 진화하는 생성 요구에 대응할 수 있으면서도 기존 방법에서 흔히 발생하는 문제들(예: 과도한 복사, 스타일 편향 등)을 피할 수 있다. AR-RAG를 구현하기 위해, 우리는 두 가지 병렬 프레임워크를 제안한다: (1) 디코딩에서의 분포 증강(DAiD)은 모델이 예측한 패치의 분포와 검색된 패치의 분포를 직접 병합하는 훈련이 필요 없는 플러그 앤 플레이 디코딩 전략이며, (2) 디코딩에서의 특징 증강(FAiD)은 다중 스케일 컨볼루션 연산을 통해 검색된 패치의 특징을 점진적으로 부드럽게 하고 이를 활용하여 이미지 생성 과정을 증강하는 파라미터 효율적인 미세 조정 방법이다. 우리는 AR-RAG의 효과를 Midjourney-30K, GenEval, DPG-Bench 등 널리 사용되는 벤치마크에서 검증하며, 최첨단 이미지 생성 모델 대비 상당한 성능 향상을 입증한다.
DUSt3R와 같은 밀집 매칭(dense matching) 방법들은 3D 재구성을 위해 쌍별(pairwise) 포인트맵을 회귀합니다. 그러나 쌍별 예측에 의존하고 일반화 능력이 제한적이라는 점은 본질적으로 전역 기하학적 일관성을 제약합니다. 본 연구에서는 기하학적 정확도를 크게 향상시키는 놀라울 정도로 간단한 테스트 시간 학습 기법인 Test3R을 소개합니다. 이미지 삼중항(I_1,I_2,I_3)을 사용하여 Test3R은 쌍(I_1,I_2)과 (I_1,I_3)으로부터 재구성을 생성합니다. 핵심 아이디어는 테스트 시간에 자기 지도(self-supervised) 목표를 통해 네트워크를 최적화하는 것입니다: 공통 이미지 I_1에 대한 이 두 재구성 간의 기하학적 일관성을 최대화합니다. 이를 통해 모델은 입력에 관계없이 쌍 간 일관된 출력을 생성합니다. 광범위한 실험을 통해 우리의 기법이 3D 재구성 및 다중 뷰 깊이 추정 작업에서 이전의 최첨단 방법들을 크게 능가함을 입증했습니다. 더욱이, 이 기법은 보편적으로 적용 가능하고 거의 비용이 들지 않아, 다른 모델에 쉽게 적용할 수 있으며 최소한의 테스트 시간 학습 오버헤드와 매개변수 공간으로 구현할 수 있습니다. 코드는 https://github.com/nopQAQ/Test3R에서 확인할 수 있습니다.
본 연구에서는 강력한 추론 모델을 개발하기 위해 지도 미세 조정(SFT)과 강화 학습(RL) 간의 시너지를 탐구합니다. 먼저, 두 가지 확장 전략을 통해 SFT 학습 데이터를 구성했습니다: 수집된 프롬프트의 수를 늘리고, 각 프롬프트당 생성된 응답의 수를 늘리는 방식입니다. 두 접근 방식 모두 추론 성능에서 뚜렷한 개선을 보였으며, 특히 프롬프트 수를 확장하는 것이 더 큰 성과를 거두었습니다. 이후 SFT와 RL 간의 시너지에 대해 다음과 같은 질문을 탐구했습니다: (i) 더 강력한 SFT 모델이 대규모 RL 학습 후에도 일관되게 더 나은 최종 성능을 보이는가? (ii) 주어진 SFT 초기화에 대해 탐색과 활용 사이의 균형을 효과적으로 유지하기 위해 RL 학습 중 적절한 샘플링 온도를 어떻게 결정할 수 있는가? 연구 결과, (i)는 특히 샘플링 온도가 탐색과 활용 사이의 균형을 잘 유지하도록 온도 조정 엔트로피를 약 0.3으로 설정할 때 효과적인 RL 학습이 수행된다면 성립함을 확인했습니다. 주목할 만한 점은, RL 과정을 통해 초기 SFT 모델 간의 성능 격차가 크게 좁혀진다는 것입니다. 강력한 SFT 기반과 SFT와 RL 간의 시너지적 상호작용에 대한 통찰을 활용하여, 우리의 AceReason-Nemotron-1.1 7B 모델은 AceReason-Nemotron-1.0을 크게 능가하며 Qwen2.5-7B 기반 추론 모델 중에서도 수학 및 코드 벤치마크에서 새로운 최첨단 성능을 달성함으로써 사후 학습 레시피의 효과를 입증했습니다. 모델과 데이터는 다음 링크에서 공개합니다: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
LLM의 전반적인 능력이 급속히 향상됨에 따라, LLM 개인화, 즉 개별 사용자 프로필에 맞춤화된 응답이나 서비스를 생성할 수 있는 LLM 시스템을 구축하는 방법은 점점 더 중요한 연구 및 공학적 문제로 대두되고 있다. 그러나 일반/추론 능력을 평가하기 위해 출시되는 많은 새로운 도전적인 벤치마크와 달리, LLM 개인화를 평가하기 위한 고품질 벤치마크의 부재는 이 분야의 발전을 크게 저해하고 있다. 이를 해결하기 위해, 우리는 미리 정의된 사용자 프로필과 질문이 주어졌을 때 LLM이 개인화된 응답을 제공하는 능력을 직접 평가하는 새로운 벤치마크인 PersonaFeedback을 소개한다. 기존 벤치마크들이 모델이 과거 상호작용에서 암묵적인 사용자 프로필을 추론하도록 요구하는 것과 달리, PersonaFeedback은 프로필 추론을 개인화와 분리하여 명시적인 프로필에 맞춰 응답을 생성하는 모델의 능력을 평가하는 데 초점을 맞춘다. PersonaFeedback은 8,298개의 인간 주석이 달린 테스트 케이스로 구성되어 있으며, 이는 사용자 프로필의 맥락적 복잡성과 두 개인화된 응답 간의 미묘한 차이를 구별하는 난이도에 따라 쉬움, 중간, 어려움의 세 단계로 분류된다. 우리는 다양한 모델에 걸쳐 포괄적인 평가를 수행하였다. 실험 결과, 복잡한 현실 세계의 추론 과제를 해결할 수 있는 최첨단 LLM조차도 인간 평가자들이 차이를 구별하기 어려워할 수 있는 PersonaFeedback의 어려움 단계에서는 부족함을 보였다. 또한, 다양한 유형의 시스템에서의 실패 모드에 대한 심층 분석을 수행하여, 현재의 검색 강화 프레임워크가 개인화 작업에 대한 사실상의 해결책으로 간주되어서는 안 된다는 것을 입증하였다. 모든 벤치마크 데이터, 주석 프로토콜 및 평가 파이프라인은 향후 LLM 개인화 연구를 촉진하기 위해 공개될 예정이다.
다중 모드 사고 연쇄(CoT) 추론 분야에서 기존 접근법은 주로 순수 언어 공간에서의 추론에 의존하며, 이는 본질적으로 언어 편향을 겪고 수학이나 과학 도메인에 크게 국한된다. 이러한 좁은 초점은 이미지 세부 사항에 대한 포괄적인 이해를 요구하는 복잡한 시각적 추론 과제를 처리하는 능력을 제한한다. 이러한 한계를 해결하기 위해, 본 논문은 향상된 세밀한 시각적 인지 능력을 가진 새로운 추론 다중 모드 대형 언어 모델(MLLM)인 VGR을 소개한다. 질문에 답하거나 언어 공간에서만 추론하는 전통적인 MLLM과 달리, 우리의 VGR은 먼저 문제 해결에 도움이 될 수 있는 관련 영역을 탐지한 후, 재생된 이미지 영역을 기반으로 정확한 답변을 제공한다. 이를 위해, 우리는 시각적 근거와 언어적 추론이 혼합된 추론 데이터를 포함하는 대규모 SFT 데이터셋인 VGR-SFT를 구축한다. VGR의 추론 파이프라인은 모델이 시각적 참조를 위한 경계 상자를 선택할 수 있게 하며, 해당 영역을 추론 과정에 통합하는 재생 단계를 도입하여 다중 모델 이해를 강화한다. LLaVA-NeXT-7B 기준선에 대한 실험 결과, VGR은 포괄적인 이미지 세부 사항 이해를 요구하는 다중 모드 벤치마크에서 우수한 성능을 달성한다. 기준선과 비교하여, VGR은 이미지 토큰 수의 30%만 사용하면서 MMStar에서 +4.1, AI2D에서 +7.1, ChartQA에서 +12.9의 점수 향상을 보인다.
대규모 언어 모델(LLMs)은 다양한 작업과 언어에 걸쳐 놀라운 일반화 능력을 보여주며, 자연어 처리 분야에 혁신을 가져왔다. 본 논문은 LLMs의 중간 계층에서 자연스럽게 발생하는 표현 정렬(representation alignment)과 이를 통해 언어 특정적 정보와 언어 독립적 정보를 분리하는 데 대한 함의를 탐구한다. 우리는 이러한 정렬의 존재를 실증적으로 확인하고, 명시적으로 설계된 정렬 모델과의 비교를 통해 그 특성을 분석하며, 의미적 저하 없이 언어 특정적 조작을 가능하게 하는 잠재력을 입증한다. 이러한 연구 결과를 바탕으로, 우리는 잠재 주입(latent injection)을 활용하여 정확한 교차 언어 제어를 가능하게 하고 LLMs의 언어 혼동을 완화하는 새로운 방법인 추론 시 언어 제어(Inference-Time Language Control, ITLC)를 제안한다. 실험 결과, ITLC는 목표 언어의 의미적 무결성을 유지하면서도 강력한 교차 언어 제어 능력을 보여준다. 또한, 현재의 대규모 LLMs에서도 지속되는 교차 언어 혼동 문제를 완화하는 데 효과적임을 입증하며, 이는 일관되지 않은 언어 생성을 초래하는 문제를 해결한다. 본 연구는 LLMs의 표현 정렬에 대한 이해를 진전시키고, 교차 언어 성능을 향상시키기 위한 실용적인 해결책을 제시한다.
다양하고 복잡하며 대규모의 명령어 데이터를 추구하는 것은 대형 언어 모델(LLM)을 자동으로 정렬하는 데 있어 매우 중요합니다. 대규모로 합성 명령어를 생성할 수 있는 방법들이 있지만, 이들은 제한된 근거 소스로 인해 좁은 분포를 보이거나, 복잡성 측면에서 의미 있는 궤적을 생성하지 못하는 사소한 확장에 의존하는 경우가 많습니다. 반면, 효율적인 정렬에 도움을 주는 명령어들은 일반적으로 인지적 통찰을 바탕으로 제작되고 실제 사용 사례에 근거를 두고 있습니다. 본 논문에서는 속성 기반 근거를 사용하여 이러한 명령어를 합성합니다. 이는 1) 선택된 실제 명령어를 특정 사용자에게 귀속시키는 상향식 귀속 과정과, 2) 웹 문서를 활용하여 먼저 상황을 생성한 후 의미 있는 명령어를 생성하는 하향식 합성 과정으로 구성됩니다. 이 프레임워크를 통해 우리는 다양한 웹 문서를 활용하여 대규모로 다양하고 복잡한 명령어를 수집할 수 있습니다. 구체적으로, 우리는 'SynthQuestions'라는 100만 개의 명령어 데이터셋을 구축하고, 이를 통해 훈련된 모델이 여러 일반적인 벤치마크에서 선도적인 성능을 달성하며, 더 많은 웹 코퍼스를 사용할수록 지속적으로 개선되는 것을 보여줍니다. 데이터, 모델 및 코드는 https://github.com/Ignoramus0817/SynthQuestions에서 제공될 예정입니다.
최근, 사전 학습된 시각-언어 모델(VLMs)을 활용하여 시각-언어-행동(VLA) 모델을 구축하는 것이 효과적인 로봇 조작 학습을 위한 유망한 접근 방식으로 부상하고 있습니다. 그러나 3D 신호를 VLM에 통합하여 행동 예측을 수행하는 방법은 소수에 불과하며, 이들은 3D 데이터에 내재된 공간 구조를 완전히 활용하지 못해 샘플 효율성이 낮은 문제가 있습니다. 본 논문에서는 (1) 3D 입력을 다수의 2D 이미지로 투영하여 VLM 백본과의 입력 정렬을 보장하고, (2) 행동 예측을 위해 2D 히트맵을 활용하여 입력과 출력 공간을 일관된 2D 이미지 공간 내에서 통일하는 새로운 3D VLA 모델인 BridgeVLA를 소개합니다. 또한, 다운스트림 정책 학습 전에 VLM 백본이 2D 히트맵을 예측할 수 있는 능력을 갖추도록 하는 확장 가능한 사전 학습 방법을 제안합니다. 광범위한 실험을 통해 제안된 방법이 3D 조작을 효율적이고 효과적으로 학습할 수 있음을 보여줍니다. BridgeVLA는 세 가지 시뮬레이션 벤치마크에서 최신 기준 방법들을 능가합니다. RLBench에서는 평균 성공률을 81.4%에서 88.2%로 향상시켰습니다. COLOSSEUM에서는 어려운 일반화 설정에서 상당히 더 나은 성능을 보이며, 평균 성공률을 56.7%에서 64.0%로 끌어올렸습니다. GemBench에서는 평균 성공률 측면에서 모든 비교 기준 방법들을 능가했습니다. 실제 로봇 실험에서 BridgeVLA는 최신 기준 방법보다 평균 32% 더 나은 성능을 보였습니다. 시각적 방해와 보이지 않는 지시를 포함한 여러 분포 외 설정에서도 강력하게 일반화되었습니다. 특히, 작업당 단 3개의 궤적으로 10개 이상의 작업에서 96.8%의 성공률을 달성하며, 탁월한 샘플 효율성을 입증했습니다. 프로젝트 웹사이트: https://bridgevla.github.io/
대규모 언어 모델(LLM)의 최근 발전은 다양한 상호작용적이고 개방형 시나리오에서 계획, 적응, 사회적 역학 등 점점 더 인간과 유사한 행동을 보이는 AI 에이전트의 개발을 가능하게 했습니다. 이러한 행동은 단순히 기저 모델의 내부 구조에서 비롯된 것이 아니라, 특정 맥락 내에서 작동하는 에이전트 시스템에 통합되면서 환경적 요인, 사회적 단서, 상호작용 피드백이 시간에 따라 행동을 형성하는 과정에서 나타나는 것입니다. 이러한 진화는 새로운 과학적 관점, 즉 AI 에이전트 행동 과학의 필요성을 요구합니다. 이 관점은 내부 메커니즘에만 초점을 맞추기보다는 행동의 체계적 관찰, 가설 검증을 위한 개입 설계, 그리고 시간에 따라 AI 에이전트가 어떻게 행동하고 적응하며 상호작용하는지에 대한 이론 기반 해석을 강조합니다. 우리는 개별 에이전트, 다중 에이전트, 인간-에이전트 상호작용 설정에 걸친 연구를 체계화하고, 이 관점이 공정성, 안전성, 해석 가능성, 책임성, 프라이버시를 행동적 속성으로 다루며 책임 있는 AI를 어떻게 지원하는지 추가로 보여줍니다. 최근 연구 결과를 통합하고 미래 방향을 제시함으로써, 우리는 AI 에이전트 행동 과학을 전통적인 모델 중심 접근법에 필수적인 보완으로 자리매김하며, 점점 더 자율적인 AI 시스템의 실세계 행동을 이해, 평가, 통제하기 위한 필수 도구를 제공합니다.
언어 모델의 지속적인 진화는 다양한 작업에서 탁월한 성능을 보이는 대규모 아키텍처의 개발로 이어졌습니다. 그러나 이러한 모델은 상당한 계산 및 에너지 요구량과 함께 잠재적인 개인정보 보호 문제를 동반합니다. 이러한 맥락에서, 약 5억 개의 파라미터를 가진 소형 추론 언어 모델(SRLM)은 특히 자원이 제한된 환경에서 놀라운 계산 효율성과 비용 효율성으로 인해 매력적인 대안으로 부상하고 있습니다. 이러한 장점에도 불구하고, 5억 파라미터 모델의 제한된 용량은 수학적 추론 및 코드 생성과 같은 복잡한 작업을 처리하는 데 있어 어려움을 야기합니다. 본 연구는 5억 파라미터 SRLM의 성능을 향상시키기 위해 지도 미세 조정(SFT), 지식 증류(KD), 강화 학습(RL) 및 이들의 하이브리드 구현을 포함한 다양한 훈련 전략을 조사합니다. 우리는 SRLM과 더 큰 모델 간의 성능 격차를 줄이기 위한 효과적인 방법론을 분석하고, 이러한 소형 아키텍처에 맞춤화된 최적의 훈련 파이프라인에 대한 통찰을 제시합니다. 광범위한 실험적 검증과 분석을 통해, 본 연구는 5억 파라미터 모델의 추론 능력을 극대화하기 위한 실행 가능한 권장 사항을 제공하는 것을 목표로 합니다.
관찰과 언어 피드백을 통해 상호작용적으로 학습하는 것은 대형 언어 모델(LLM) 에이전트의 등장으로 인해 점점 더 활발히 연구되고 있는 분야이다. 인상적인 실증적 결과들이 제시되었지만, 이러한 의사결정 문제를 체계적으로 정립한 연구는 아직 부족한 실정이다. 본 논문에서는 언어 피드백 학습(Learning from Language Feedback, LLF) 문제를 공식화하고, 잠재적 보상에도 불구하고 학습이 가능하도록 충분한 가정을 제시하며, LLF 문제의 난이도를 특성화하기 위한 복잡도 측정 지표로서 전달 엘루더 차원(transfer eluder dimension)을 소개한다. 전달 엘루더 차원이 피드백에 포함된 정보가 LLF 문제의 학습 복잡도를 변화시킨다는 직관을 포착함을 보인다. 또한, 풍부한 언어 피드백을 통해 학습하는 것이 보상만을 통해 학습하는 것보다 기하급수적으로 빠를 수 있는 사례를 제시한다. 우리는 HELiX라는 후회 없는(no-regret) 알고리즘을 개발하여, 순차적 상호작용을 통해 LLF 문제를 해결할 수 있음을 증명하며, 이 알고리즘의 성능 보장이 문제의 전달 엘루더 차원에 따라 확장됨을 보인다. 여러 실증적 영역에서 HELiX가 LLM을 반복적으로 프롬프팅하는 방식이 안정적으로 작동하지 않는 상황에서도 우수한 성능을 보임을 입증한다. 본 연구의 공헌은 일반적인 언어 피드백을 통해 상호작용적 학습 알고리즘을 설계하기 위한 첫걸음으로서 의의를 가진다.
패키지 배송 경로 최적화, 승무원 스케줄링, 공장 생산 계획, 전력망 균형 조정과 같은 도메인의 어려운 최적화 문제에 대해 AI 시스템이 알고리즘 엔지니어링에서 얼마나 잘 수행하는가? 우리는 점수 기반 알고리즘 프로그래밍 대회에서 AI 시스템을 평가하기 위한 새로운 벤치마크인 ALE-Bench를 소개한다. AtCoder Heuristic Contests의 실제 과제를 기반으로 한 ALE-Bench는 계산적으로 어렵고 알려진 정확한 해결책이 없는 최적화 문제를 제시한다. 단기간의 합격/불합격 코딩 벤치마크와 달리, ALE-Bench는 장기간에 걸친 반복적인 솔루션 개선을 장려한다. 우리의 소프트웨어 프레임워크는 테스트 실행 피드백과 시각화를 활용하는 인터랙티브 에이전트 아키텍처를 지원한다. 최첨단 대형 언어 모델(LLM)에 대한 평가 결과, 특정 문제에서는 높은 성능을 보였지만, 문제 간 일관성과 장기적인 문제 해결 능력 측면에서 인간과 비교했을 때 여전히 상당한 격차가 있음이 드러났다. 이는 향후 AI 발전을 촉진하기 위해 이 벤치마크가 필요함을 강조한다.
대형 언어 모델(LLMs)은 점점 더 일상적인 애플리케이션에 통합되고 있습니다. 그 영향력이 커짐에 따라, 이들의 의사 결정 과정과 내재된 성격을 이해하는 것이 필수적입니다. 본 연구에서는 우리가 제안한 슈퍼노바 이벤트 데이터셋을 사용하여 모델의 성격을 해석합니다. 이 데이터셋은 전기, 역사적 사건, 뉴스, 과학적 발견 등 다양한 주제의 기사로 구성된 새로운 데이터셋입니다. 우리는 이 데이터셋을 사용하여 LLMs가 텍스트에서 주요 이벤트를 추출하고 순위를 매기는 능력을 벤치마킹합니다. 이는 장거리 문맥을 추론하고 인과 관계를 모델링해야 하는 주관적이고 복잡한 과제입니다. 우리는 Phi-4, Orca 2, Qwen 2.5와 같은 소형 모델과 Claude 3.7, Gemini 2.5, OpenAI o3와 같은 대형 강력 모델을 평가하고, 또 다른 LLM이 판단자 역할을 하여 각 모델의 이벤트 선택 및 분류를 기반으로 성격을 추론하는 프레임워크를 제안합니다. 우리의 분석은 뚜렷한 성격 특성을 보여줍니다: 예를 들어, Orca 2는 대인 관계 역학에 초점을 맞춘 감정적 추론을 보이는 반면, Qwen 2.5는 더 전략적이고 분석적인 스타일을 보입니다. 과학적 발견 이벤트를 분석할 때, Claude Sonnet 3.7은 개념적 틀을 강조하고, Gemini 2.5 Pro는 경험적 검증을 우선시하며, o3는 단계별 인과적 추론을 선호합니다. 이 분석은 모델의 해석 가능성을 향상시켜 다양한 애플리케이션에서 사용자 친화적으로 만듭니다.
실제 세계의 시계열 데이터는 종종 복잡한 비선형 동역학에 의해 지배됩니다. 이러한 기본 동역학을 이해하는 것은 정확한 미래 예측을 위해 매우 중요합니다. 딥러닝은 시계열 예측에서 큰 성공을 거두었지만, 많은 기존 접근법들은 동역학을 명시적으로 모델링하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 비선형 동역학 시스템 모델링과 딥 신경망을 통합한 DeepEDM 프레임워크를 소개합니다. 경험적 동역학 모델링(EDM)에서 영감을 받고 Takens의 정리에 기반을 둔 DeepEDM은 시간 지연 임베딩에서 잠재 공간을 학습하고, 기본 동역학을 근사하기 위해 커널 회귀를 사용하며, 소프트맥스 어텐션의 효율적인 구현을 활용하여 미래 시간 단계를 정확하게 예측할 수 있는 새로운 딥 모델을 제시합니다. 우리의 방법을 평가하기 위해, 비선형 동역학 시스템의 합성 데이터와 다양한 도메인의 실제 시계열 데이터에 대해 포괄적인 실험을 수행했습니다. 우리의 결과는 DeepEDM이 입력 노이즈에 강건하며, 예측 정확도에서 최첨단 방법들을 능가함을 보여줍니다. 우리의 코드는 https://abrarmajeedi.github.io/deep_edm에서 확인할 수 있습니다.
최근의 심층 사고 대형 언어 모델은 성능을 향상시키기 위해 광범위하게 추론을 수행하지만, 이러한 긴 추론 과정이 항상 바람직한 것은 아닙니다. 이는 과도한 추론 비용을 초래하면서도 성능 향상에 비례하지 않는 결과를 가져오기 때문입니다. 따라서 성능 저하 없이 추론 길이를 제어하는 것이 중요하지만, 특히 엄격한 사고 예산 하에서는 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 LLM의 미세 조정 없이도 목표 예산에 맞춰 추론 과정을 조정할 수 있는 간단하면서도 효과적인 방법인 예산 가이던스를 제안합니다. 우리의 접근 방식은 다음 토큰 생성 중 남은 사고 길이에 대한 감마 분포를 모델링하는 경량 예측기를 도입합니다. 이 신호는 토큰 수준에서 부드럽게 생성 과정을 안내하는 데 사용되어, 전체 추론 흔적이 지정된 사고 예산을 준수하도록 합니다. 예산 가이던스는 사고 길이를 자연스럽게 제어할 수 있게 해주며, 특히 도전적인 수학 벤치마크에서 기준 방법 대비 상당한 토큰 효율성 개선을 달성합니다. 예를 들어, MATH-500 벤치마크에서 엄격한 예산 하에서 기준 방법 대비 최대 26%의 정확도 향상을 달성하면서도, 전체 사고 모델이 사용한 토큰의 63%만으로도 경쟁력 있는 정확도를 유지합니다. 예산 가이던스는 더 넓은 작업 영역으로 일반화될 수 있으며, 문제 난이도 추정과 같은 새로운 능력을 보여줍니다. 소스 코드는 https://github.com/UMass-Embodied-AGI/BudgetGuidance에서 확인할 수 있습니다.
트랜스포머의 셀프 어텐션 레이어는 설계상 순열 불변이므로, 공간적 이해를 가능하게 하기 위해 위치 인코딩을 명시적으로 통합해야 합니다. 그러나 전통적인 학습 가능한 위치 임베딩(PE)에서 사용되는 고정 크기 룩업 테이블은 사전 학습된 시퀀스 길이를 넘어서는 외삽 능력을 제한합니다. ALiBi 및 RoPE와 같은 전문가 설계 방식은 이러한 한계를 완화하지만, 새로운 모달리티에 적응하기 위해 광범위한 수정이 필요하여 적응성과 확장성에 대한 근본적인 문제를 강조합니다. 본 연구에서는 각 n차원 위치 인덱스를 기호 시퀀스로 표현하고, 경량 순차 위치 인코더를 사용하여 이를 종단 간 방식으로 임베딩을 학습하는 통합적이고 완전히 학습 가능한 위치 인코딩 프레임워크인 SeqPE를 제안합니다. SeqPE의 임베딩 공간을 정규화하기 위해 두 가지 상호 보완적인 목표를 도입했습니다: 임베딩 거리를 사전 정의된 위치-거리 함수와 정렬하는 대조 목표, 그리고 분포 외 위치 임베딩을 분포 내 교사 표현에 고정하여 외삽 성능을 더욱 향상시키는 지식 증류 손실입니다. 언어 모델링, 장문 질의응답, 2D 이미지 분류에 걸친 실험을 통해 SeqPE가 특히 컨텍스트 길이 외삽 하에서 perplexity, 정확도(EM), 정확도 측면에서 강력한 베이스라인을 능가할 뿐만 아니라, 수동적인 아키텍처 재설계 없이도 다차원 입력으로의 원활한 일반화를 가능하게 함을 입증했습니다. 코드, 데이터, 체크포인트는 https://github.com/ghrua/seqpe에서 공개합니다.
종단 간 역전파를 사용하여 대규모 신경망을 학습시키는 것은 상당한 메모리 병목 현상을 초래하여 최신 AI 연구에 대한 접근성을 제한합니다. 우리는 DiffusionBlocks라는 새로운 학습 프레임워크를 제안합니다. 이 프레임워크는 신경망 블록을 연속 시간 확산 과정에서의 잡음 제거 작업으로 해석합니다. 네트워크를 독립적으로 학습 가능한 블록으로 분할하고 동일한 누적 확률 질량을 기반으로 잡음 수준 할당을 최적화함으로써, 우리의 접근 방식은 생성 작업에서 전통적인 역전파와 비교하여 경쟁력 있는 성능을 유지하면서도 상당한 메모리 효율성을 달성합니다. 이미지 생성 및 언어 모델링 작업에 대한 실험은 블록 수에 비례하여 메모리 사용량을 줄이면서도 우수한 성능을 달성함을 보여줍니다. DiffusionBlocks는 제한된 계산 자원으로 대규모 신경망 학습에 대한 접근을 민주화할 수 있는 유망한 경로를 제공합니다.
대규모 언어 모델(LLMs)의 최근 발전은 정확하고 효율적인 시계열 분석을 위한 새로운 가능성을 보여주었지만, 기존 연구들은 대규모 미세 조정을 필요로 하거나 시계열 간 상관관계를 무시하는 경우가 많았습니다. 본 연구에서는 복잡한 외부 아키텍처 사용 없이도 LLMs가 시계열 예측을 수행할 수 있도록 하는 간단하고 유연한 프롬프트 기반 전략을 탐구합니다. 시계열 분해, 패치 기반 토큰화, 유사성 기반 이웃 증강을 활용한 특수화된 프롬프트 방법을 탐구함으로써, 데이터 전처리를 최소화하면서도 LLM의 예측 품질을 향상시킬 수 있음을 발견했습니다. 이를 위해 우리는 LLMs가 정확하고 효과적인 예측을 할 수 있도록 하는 PatchInstruct라는 방법을 제안합니다.
본 연구는 사용자가 텍스트 지침과 주요 비디오 프레임 형태로 기술을 효율적으로 학습할 수 있도록 돕는 것을 목표로, 교육용 비디오를 위한 다중 모드 요약 기술을 탐구한다. 기존 벤치마크는 일반적인 의미 수준의 비디오 요약에 초점을 맞추고 있어, 단계별로 실행 가능한 지침과 시각적 설명을 제공하는 데 적합하지 않으며, 이는 교육용 비디오에 있어 매우 중요한 요소이다. 이러한 격차를 메우기 위해, 본 연구는 사용자 인터페이스(UI) 교육용 비디오 요약을 위한 새로운 벤치마크를 제안한다. 총 167시간 이상의 2,413개의 UI 교육용 비디오로 구성된 데이터셋을 수집하였으며, 이 비디오들은 비디오 분할, 텍스트 요약, 비디오 요약을 위해 수동으로 주석 처리되어 간결하고 실행 가능한 비디오 요약에 대한 포괄적인 평가를 가능하게 한다. 수집된 MS4UI 데이터셋을 대상으로 광범위한 실험을 수행한 결과, 최신 다중 모드 요약 방법들이 UI 비디오 요약에서 어려움을 겪는 것으로 나타났으며, UI 교육용 비디오 요약을 위한 새로운 방법의 중요성이 강조되었다.
오늘날 온라인상에서 오보와 허위 정보가 확산되는 시대적 특성을 고려할 때, 독자들이 자신이 읽는 콘텐츠를 이해할 수 있도록 돕는 것이 중요합니다. 이를 위한 주요 노력은 수동 또는 자동 팩트 체킹에 의존하지만, 정보가 제한된 새로운 주장에 대해서는 이 방법이 어려울 수 있습니다. 이러한 상황은 주장의 출처인 뉴스 매체의 신뢰도와 정치적 편향성을 평가함으로써 해결할 수 있습니다. 즉, 개별 주장이나 기사가 아니라 전체 뉴스 매체를 특성화하는 것입니다. 이는 중요하지만 아직 충분히 연구되지 않은 분야입니다. 기존 연구는 언어적 및 사회적 맥락을 살펴보았지만, 우리는 개별 기사나 소셜 미디어의 정보를 분석하지 않습니다. 대신, 우리는 전문 팩트 체커들이 전체 매체의 사실성과 정치적 편향성을 평가하는 기준을 모방한 새로운 방법론을 제안합니다. 구체적으로, 이러한 기준에 기반한 다양한 프롬프트를 설계하고, 대형 언어 모델(LLM)로부터 응답을 이끌어내어 이를 종합하여 예측을 수행합니다. 여러 LLM을 사용한 광범위한 실험을 통해 강력한 베이스라인 대비 상당한 개선을 보여줄 뿐만 아니라, 매체의 인기와 지역이 모델 성능에 미치는 영향에 대한 심층적인 오류 분석을 제공합니다. 또한, 이러한 개선에 기여하는 데이터셋의 주요 구성 요소를 강조하기 위해 어블레이션 연구를 수행합니다. 향후 연구를 촉진하기 위해, 우리는 데이터셋과 코드를 https://github.com/mbzuai-nlp/llm-media-profiling 에 공개했습니다.
최근 대규모 언어 모델(LLMs)의 발전은 일반적인 영역부터 전문 분야에 이르기까지 다양한 분야에 상당한 영향을 미쳤습니다. 그러나 이러한 발전은 악의적인 사용자가 유해 프롬프트와 탈옥(jailbreak) 프롬프트를 악성 공격에 활용할 가능성도 크게 증가시켰습니다. 유해 프롬프트와 탈옥 프롬프트를 방지하기 위한 많은 노력이 있었음에도 불구하고, LLMs를 이러한 악성 공격으로부터 보호하는 것은 여전히 중요하면서도 어려운 과제로 남아 있습니다. 본 논문에서는 질문 프롬프팅을 활용하여 제로샷(zero-shot) 방식으로 유해 프롬프트를 차단하는 간단하면서도 효과적인 안전 보호 방법인 QGuard를 제안합니다. 우리의 방법은 텍스트 기반 유해 프롬프트뿐만 아니라 멀티모달 유해 프롬프트 공격으로부터도 LLMs를 방어할 수 있습니다. 또한, 보호 질문을 다양화하고 수정함으로써 최신 유해 프롬프트에 대해 파인튜닝 없이도 강력한 내성을 유지합니다. 실험 결과는 우리의 모델이 텍스트 전용 및 멀티모달 유해 데이터셋 모두에서 경쟁력 있는 성능을 보임을 입증합니다. 추가적으로, 질문 프롬프팅에 대한 분석을 제공함으로써 사용자 입력에 대한 화이트박스 분석을 가능하게 합니다. 우리는 이 방법이 유해 프롬프트와 관련된 보안 위험을 완화하는 데 있어 실용적인 LLM 서비스에 유용한 통찰력을 제공할 것이라 믿습니다.
웨어러블 카메라의 급속한 확산은 에고센트릭 비디오 프라이버시에 대한 상당한 우려를 불러일으켰지만, 기존 연구는 대체로 카메라 착용자에게 발생하는 독특한 프라이버시 위협을 간과해 왔습니다. 본 연구는 핵심 질문을 탐구합니다: 카메라 착용자의 일인칭 시점 비디오로부터 얼마나 많은 프라이버시 정보를 추론할 수 있는가? 우리는 에고센트릭 비전에서의 프라이버시 위험을 종합적으로 평가하기 위한 최초의 대규모 벤치마크인 EgoPrivacy를 소개합니다. EgoPrivacy는 인구통계학적, 개인적, 상황적 세 가지 유형의 프라이버시를 다루며, 세분화된 정보(예: 착용자의 신원)부터 대략적인 정보(예: 연령대)까지 복구하는 것을 목표로 하는 일곱 가지 작업을 정의합니다. 에고센트릭 비전에 내재된 프라이버시 위협을 더욱 강조하기 위해, 우리는 외부의 엑소센트릭 비디오 풀에서 에고-엑소 검색을 활용하여 인구통계학적 프라이버시 공격의 효과를 증대시키는 새로운 공격 전략인 Retrieval-Augmented Attack을 제안합니다. 모든 위협 모델에서 가능한 다양한 공격 방법에 대한 광범위한 비교를 제시하며, 착용자의 프라이버시 정보가 누출되기 매우 취약함을 보여줍니다. 예를 들어, 우리의 연구 결과는 파운데이션 모델이 제로샷 설정에서도 신원, 장면, 성별, 인종과 같은 속성을 70-80%의 정확도로 복구함으로써 착용자의 프라이버시를 효과적으로 침해할 수 있음을 나타냅니다. 우리의 코드와 데이터는 https://github.com/williamium3000/ego-privacy에서 확인할 수 있습니다.
언어 모델은 주로 인터넷에서 수집된 방대한 텍스트 데이터를 기반으로 학습되며, 이러한 데이터 소스를 이해하는 것이 점점 더 중요해지고 있다. 정확 일치 검색 엔진은 대규모 텍스트 코퍼스에서 문자열 출현 횟수를 세고 해당 문서를 검색할 수 있게 해주지만, 높은 저장 공간 오버헤드로 인해 인터넷 규모의 데이터에 적용하기에는 어려움이 있다. 본 논문에서는 페타바이트 수준의 텍스트 코퍼스를 검색 가능하게 하는 효율적이고 확장 가능한 시스템인 Infini-gram mini를 소개한다. FM-인덱스 데이터 구조(Ferragina and Manzini, 2000)를 기반으로 텍스트를 동시에 인덱싱하고 압축하는 이 시스템은 코퍼스 크기의 44%에 불과한 인덱스를 생성한다. Infini-gram mini는 기존 FM-인덱스 구현체와 비교하여 인덱싱 속도(18배), 인덱싱 시 메모리 사용량(3.2배 감소), 쿼리 시 메모리 사용량(무시할 수준으로 감소)에서 크게 개선되었다. 단일 128코어 CPU 노드를 사용하여 46TB의 인터넷 텍스트를 50일 만에 인덱싱했으며(75개 노드를 사용할 경우 19시간 소요), 벤치마크 오염에 대한 대규모 분석에서 Infini-gram mini의 중요한 활용 사례를 보여준다. SQuAD와 같은 핵심 언어 모델 평가 벤치마크가 인터넷 크롤 데이터에서 최대 40%까지 오염된 것을 발견했으며, 이러한 데이터로 학습된 언어 모델의 능력을 과대평가할 가능성이 있음을 확인했다. 이를 위해 다양한 핵심 및 커뮤니티 기여 벤치마크의 오염률을 공유하는 벤치마크 오염 게시판을 운영하고 있으며, Infini-gram mini 인덱스에 대한 일반 검색 쿼리를 제공하기 위한 웹 인터페이스와 API 엔드포인트도 공개했다.
자기조절학습(Self-Regulated Learning, SRL)은 대학생들이 증가한 학업 요구와 독립성을 극복하는 데 있어 핵심적인 역할을 한다. 불충분한 SRL 기술은 체계적이지 못한 학습 습관, 낮은 동기 부여, 그리고 시간 관리의 실패로 이어져, 학습자들이 도전적인 환경에서 성공적으로 적응하는 능력을 저해할 수 있다. 59명의 대학생을 대상으로 한 형성적 연구를 통해, 우리는 학생들이 SRL 기술을 개발하는 과정에서 직면하는 주요 문제들, 즉 목표 설정, 시간 관리, 반성적 학습의 어려움 등을 확인하였다. 이러한 문제를 해결하기 위해, 우리는 대형 언어 모델(Large Language Models, LLMs)의 적응형 지원과 게임화를 통해 SRL 기술을 촉진하는 SRLAgent 시스템을 소개한다. Zimmerman의 3단계 SRL 프레임워크에 기반한 SRLAgent는 학생들이 인터랙티브 게임 기반 환경 내에서 목표 설정, 전략 실행, 자기 반성을 수행할 수 있도록 지원한다. 이 시스템은 LLM의 실시간 피드백과 스캐폴딩을 제공하여 학생들의 독립적인 학습 노력을 뒷받침한다. 우리는 SRLAgent를 기반 시스템(SRL 기능이 없는 Agent)과 전통적인 멀티미디어 학습 조건과 비교하는 피험자 간 설계를 통해 평가하였다. 그 결과, SRLAgent 그룹에서 SRL 기술의 유의미한 향상(p < .001, Cohen's d = 0.234)과 기존 조건 대비 높은 참여도를 확인하였다. 이 연구는 게임화된 환경 내에 SRL 스캐폴딩과 실시간 AI 지원을 내재화하는 것의 가치를 강조하며, 심층 학습과 메타인지 기술 개발을 촉진하고자 하는 교육 기술에 대한 설계적 함의를 제공한다.
언어 모델이 재료 과학 분야에서 점점 더 활용되고 있지만, 일반적인 모델은 자연어 처리용으로 개발된 빈도 중심의 토큰화 방법에 의존하고 있다. 그러나 이러한 방법은 과도한 분할과 의미 손실을 초래하는 경우가 많아, 재료 개념의 구조적 및 의미적 무결성을 유지하지 못한다. 이러한 문제를 해결하기 위해, 본 연구에서는 재료 지식을 토큰화에 통합한 새로운 토큰화 접근법인 MATTER를 제안한다. 재료 지식 기반으로 훈련된 MatDetector와 토큰 병합 시 재료 개념을 우선적으로 고려하는 재순위화 방법을 기반으로, MATTER는 식별된 재료 개념의 구조적 무결성을 유지하고 토큰화 과정에서의 분할을 방지함으로써 그 의미가 온전히 보존되도록 한다. 실험 결과, MATTER는 기존 토큰화 방법을 능가하며, 생성 및 분류 작업에서 각각 평균 4%와 2%의 성능 향상을 달성했다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 도메인 지식이 중요함을 강조한다. 본 연구의 코드는 https://github.com/yerimoh/MATTER에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 일반적으로 다음 단어 예측(NWP)을 통해 학습되며, 이는 강력한 표면적 유창성을 제공하지만 견고한 추론을 지원하기에는 부족한 경우가 많다. 본 연구에서는 BOttlenecked next Word exploration (BOW)라는 새로운 강화 학습(RL) 프레임워크를 제안한다. 이 프레임워크는 NWP를 재고하여 추론 병목 현상을 도입한다. 여기서 정책 모델은 다음 토큰을 직접 예측하는 대신 먼저 추론 경로를 생성하며, 이후 고정된 판단 모델이 이 추론 경로만을 기반으로 다음 토큰 분포를 예측한다. 정책 모델은 GRPO를 사용하여 학습되며, 이때 보상은 추론 경로가 다음 단어 복원을 얼마나 효과적으로 촉진하는지를 정량화한다. 다양한 벤치마크에서 평가한 결과, BOW는 기타 지속적 사전 학습 기준선과 비교하여 기본 모델의 일반적 및 다음 단어 추론 능력을 모두 향상시킨 것으로 나타났다. 본 연구 결과는 BOW가 일반적인 NWP의 효과적이고 확장 가능한 대안으로 사용될 수 있음을 보여준다.
이미지를 통해 사망률 관련 결과를 예측하는 것은 접근성, 비침습성, 확장성이 뛰어난 건강 검진의 가능성을 제시한다. 본 연구에서는 사전 학습된 비전 트랜스포머 기반 모델을 활용하여 얼굴 및 전신 이미지로부터 잔여 수명을 추정하고, 강력한 불확실성 정량화를 수행하는 방법을 제안한다. 예측 불확실성이 실제 잔여 수명과 체계적으로 변화하며, 이 불확실성을 각 샘플에 대해 가우시안 분포를 학습함으로써 효과적으로 모델링할 수 있음을 보여준다. 제안된 접근법은 기존 데이터셋에서 7.48년의 최신 평균 절대 오차(MAE)를 달성했으며, 본 연구에서 구축 및 공개한 두 개의 새로운 고품질 데이터셋에서 각각 4.79년과 5.07년의 MAE로 추가 개선되었다. 특히, 제안된 모델은 0.62년의 버킷 기대 교정 오차로 입증된 바와 같이 잘 교정된 불확실성 추정치를 제공한다. 임상적 배포를 목적으로 하지는 않았지만, 이러한 결과는 이미지에서 의학적으로 관련된 신호를 추출할 수 있는 잠재력을 강조한다. 본 연구는 모든 코드와 데이터셋을 공개하여 추가 연구를 촉진한다.
본 연구에서는 학술 원고의 고차원적 의미 및 언어학적 분석을 수행하는 대형 언어 모델(LLM)을 안내하면서 인간과 유사한 계층적 추론을 유도하도록 설계된 개념 검증(PoC) 구조화 워크플로우 프롬프트 세트를 제시하고 평가한다. 이 프롬프트는 두 가지 비사소한 분석 작업을 대상으로 한다: 요약문에서 입증되지 않은 주장을 식별하는 작업(정보적 무결성)과 모호한 대명사 참조를 표시하는 작업(언어적 명확성). 두 개의 최신 모델(Gemini Pro 2.5 Pro와 ChatGPT Plus o3)을 다양한 컨텍스트 조건에서 체계적이고 다중 실행 평가를 수행하였다. 정보적 무결성 작업에 대한 결과는 모델 성능에서 상당한 차이를 보였다: 두 모델 모두 명사구의 입증되지 않은 핵심을 성공적으로 식별하였으나(95% 성공률), ChatGPT는 Gemini가 정확히 표시한(95% 성공률) 입증되지 않은 형용사 수식어를 지속적으로 식별하지 못하여(0% 성공률), 대상의 통사적 역할이 미치는 잠재적 영향에 대한 의문을 제기하였다. 언어학적 분석 작업에서는 두 모델 모두 전체 원고 컨텍스트에서 우수한 성능을 보였다(80-90% 성공률). 그러나 요약문만 제공된 환경에서는 ChatGPT가 완벽한 성공률(100%)을 달성한 반면, Gemini의 성능은 크게 저하되었다. 본 연구 결과는 구조화된 프롬프트가 복잡한 텍스트 분석을 위한 실행 가능한 방법론임을 시사하지만, 프롬프트 성능이 모델, 작업 유형, 컨텍스트 간의 상호작용에 크게 의존할 수 있음을 보여주며, 이는 엄격한 모델별 테스트의 필요성을 강조한다.
기존의 자동 음악 생성 연구는 주로 완전한 작곡이나 연속 작곡을 생성하는 종단 간(end-to-end) 시스템에 초점을 맞추어 왔습니다. 그러나 음악 작곡은 일반적으로 반복적인 과정이기 때문에, 이러한 시스템은 컴퓨터 지원 창작에 필수적인 인간과 기계 간의 상호작용을 어렵게 만듭니다. 본 연구에서는 컴퓨터 지원 작곡 과정을 향상시키기 위해 개인화 가능하고, 다중 트랙, 장기 문맥, 제어 가능한 심볼릭 음악 채우기 작업을 다룹니다. 우리는 RWKV-7 선형 아키텍처를 기반으로 한 새로운 모델인 MIDI-RWKV를 제안하여 에지 디바이스에서 효율적이고 일관된 음악 공동 작성을 가능하게 합니다. 또한 MIDI-RWKV가 매우 적은 샘플 환경에서 초기 상태를 미세 조정하여 개인화를 달성하는 효과적인 방법을 허용함을 보여줍니다. 우리는 MIDI-RWKV와 그 상태 조정을 여러 정량적 및 정성적 지표로 평가하고, 모델 가중치와 코드를 https://github.com/christianazinn/MIDI-RWKV에서 공개합니다.
언어는 시간에 따라 변화하며, 특히 혐오 발화 영역은 사회적 역학과 문화적 변화에 따라 빠르게 진화합니다. 자연어 처리(NLP) 연구는 언어 진화가 모델 학습에 미치는 영향을 조사하고 이를 위한 여러 해결책을 제안해 왔지만, 모델 벤치마킹에 미치는 영향은 아직 충분히 탐구되지 않았습니다. 그러나 혐오 발화 벤치마크는 모델 안전성을 보장하는 데 중요한 역할을 합니다. 본 논문에서는 두 가지 진화하는 혐오 발화 실험을 통해 20개의 언어 모델의 견고성을 실증적으로 평가하고, 정적 평가와 시간 민감성 평가 간의 시간적 불일치를 보여줍니다. 우리의 연구 결과는 혐오 발화 영역에서 언어 모델을 올바르고 신뢰할 수 있게 평가하기 위해 시간 민감성 언어 벤치마크의 필요성을 강조합니다.