번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 추론 정확도와 효율성을 저해하는 컨텍스트 한계를 극복하기 위해, 우리는 재귀적 및 분해적 문제 해결을 위해 훈련된 LLM 계열인 Thread Inference Model(TIM)과 컨텍스트 한계를 넘어 장기적 구조화된 추론을 가능하게 하는 추론 런타임인 TIMRUN을 제안한다. TIMRUN에 호스팅된 TIM은 단일 언어 모델 추론 내에서 사실상 무제한의 작업 메모리와 다중 홉 도구 호출을 지원함으로써 출력 한계, 위치 임베딩 제약, GPU 메모리 병목 현상을 극복한다. 이 성능은 자연어를 길이와 깊이로 측정된 추론 트리로 모델링함으로써 달성되며, 이는 선형 시퀀스 대신 사용된다. 추론 트리는 우리가 Schroeder et al, 2025에서 제안한 개념을 기반으로 한 작업, 재귀적 하위 작업, 결론으로 구성된다. 생성 과정에서 우리는 규칙 기반 하위 작업 가지치기 메커니즘에 의해 선택된 가장 관련성 높은 컨텍스트 토큰의 키-값 상태만을 유지하는 작업 메모리를 유지함으로써, 위치 임베딩과 GPU 메모리 페이지를 추론 전반에 걸쳐 재사용할 수 있게 한다. 실험 결과는 우리 시스템이 GPU 메모리에서 KV 캐시의 최대 90%를 조작하는 경우에도 높은 추론 처리량을 유지하며, 수학적 작업에서 정확한 추론을 제공하고 장기적 추론과 다중 홉 도구 사용이 필요한 정보 검색 과제를 처리할 수 있음을 보여준다.
본 논문은 산업 수준의 오디오 이해 및 음성 대화를 위해 설계된 종단 간(end-to-end) 멀티모달 대형 언어 모델인 Step-Audio~2를 소개한다. 잠재 오디오 인코더와 추론 중심의 강화 학습(RL)을 통합함으로써, Step-Audio 2는 자동 음성 인식(ASR) 및 오디오 이해에서 유망한 성능을 달성한다. 진정한 종단 간 음성 대화를 가능하게 하기 위해, Step-Audio 2는 언어 모델링에 이산 오디오 토큰 생성을 통합하여 발화 스타일 및 감정과 같은 부언어적 정보에 대한 반응성을 크게 향상시켰다. 실제 데이터에 내재된 풍부한 텍스트 및 음향 지식을 효과적으로 활용하기 위해, Step-Audio 2는 검색 증강 생성(RAG)을 통합하고, 환각 현상을 완화하기 위한 웹 검색 및 음색 전환을 위한 오디오 검색과 같은 외부 도구를 호출할 수 있다. 수백만 시간의 음성 및 오디오 데이터로 학습된 Step-Audio 2는 다양한 대화 시나리오에서 지능과 표현력을 제공한다. 평가 결과는 Step-Audio 2가 다른 오픈소스 및 상용 솔루션과 비교하여 다양한 오디오 이해 및 대화 벤치마크에서 최첨단 성능을 달성함을 보여준다. 더 많은 정보는 https://github.com/stepfun-ai/Step-Audio2를 방문하시기 바란다.
과학적 추론은 AI 과학자 개발과 인간 연구원들이 자연과학 발견의 최전선을 개척하는 데 있어 핵심적인 역할을 합니다. 그러나 오픈소스 커뮤니티는 주로 수학과 코딩에 초점을 맞추며 과학적 영역을 소홀히 해왔는데, 이는 주로 개방적이고 대규모이며 고품질이고 검증 가능한 과학적 추론 데이터셋의 부재 때문입니다. 이러한 격차를 해소하기 위해, 우리는 먼저 TextbookReasoning을 소개합니다. 이는 12,000개의 대학 수준 과학 교과서에서 추출한 정확한 참조 답변을 포함한 오픈 데이터셋으로, 7개의 과학 분야에 걸친 650,000개의 추론 문제로 구성되어 있습니다. 또한, 우리는 MegaScience를 소개합니다. 이는 1.25백만 개의 인스턴스로 구성된 대규모 고품질 오픈소스 데이터셋의 혼합물로, 다양한 데이터 선택 방법론을 평가하여 공개된 각 과학 데이터셋에 대한 최적의 부분집합을 식별하기 위한 체계적인 절제 연구를 통해 개발되었습니다. 한편, 우리는 15개의 벤치마크에 걸친 다양한 주제와 질문 유형을 포괄하는 종합적인 평가 시스템을 구축하였으며, 정확한 평가 지표를 보장하기 위해 포괄적인 답변 추출 전략을 통합하였습니다. 우리의 실험은 우리의 데이터셋이 기존의 오픈소스 과학 데이터셋에 비해 더 간결한 응답 길이로 우수한 성능과 훈련 효율성을 달성함을 보여줍니다. 더 나아가, 우리는 MegaScience를 사용하여 Llama3.1, Qwen2.5, 그리고 Qwen3 시리즈 베이스 모델을 훈련시켰으며, 이들은 평균 성능에서 해당 공식 지시 모델을 크게 능가했습니다. 또한, MegaScience는 더 크고 강력한 모델에 대해 더 큰 효과를 보여주며, 과학적 튜닝에 대한 확장 이점을 시사합니다. 우리는 과학적 추론 연구를 발전시키기 위해 데이터 큐레이션 파이프라인, 평가 시스템, 데이터셋, 그리고 훈련된 7개의 모델을 커뮤니티에 공개합니다.
비전-언어-행동(VLA) 추론 작업은 에이전트가 다중 모달 지시를 해석하고, 장기 계획을 수행하며, 동적 환경에서 적응적으로 행동할 것을 요구합니다. 기존 접근 방식은 일반적으로 VLA 모델을 종단 간(end-to-end) 방식으로 훈련시켜 입력을 직접 행동으로 매핑하며 명시적인 추론을 배제함으로써, 다단계 계획 수립이나 복잡한 작업 변형에 적응하는 능력을 저해합니다. 본 논문에서는 강화된 시각적 잠재 계획(visual latent planning)을 통해 고수준 추론과 저수준 행동 실행을 연결하는 이중 시스템 프레임워크인 ThinkAct를 제안합니다. ThinkAct는 다중 모달 대형 언어 모델(LLM)을 훈련시켜 목표 달성과 궤적 일관성을 기반으로 한 행동 정렬 시각적 보상에 의해 안내되는 구체화된 추론 계획을 생성합니다. 이러한 추론 계획은 시각적 계획 잠재(visual plan latent)로 압축되어, 대상 환경에서 강력한 행동 실행을 위한 하위 행동 모델을 조건화합니다. 구체화된 추론 및 로봇 조작 벤치마크에서의 광범위한 실험을 통해 ThinkAct가 복잡한 구체화 AI 작업에서 소샷 적응(few-shot adaptation), 장기 계획(long-horizon planning), 그리고 자기 수정(self-correction) 행동을 가능하게 함을 입증합니다.
디퓨전 트랜스포머(Diffusion Transformers)는 고해상도 이미지 및 비디오 생성을 위한 U-net 기반 디퓨전 모델의 대안으로 등장하며, 더 우수한 확장성을 제공합니다. 그러나 이들의 높은 계산 부하는 실제 환경에서의 배포에 있어 주요 장애물로 남아 있습니다. 기존의 가속화 방법들은 주로 디퓨션 타임스텝 간 캐시된 특징을 재사용하는 등 시간적 차원을 활용해 왔습니다. 본 연구에서는 공간적 차원에서 추론을 가속화하는 훈련이 필요 없는 프레임워크인 지역 적응형 잠재 업샘플링(Region-Adaptive Latent Upsampling, RALU)을 제안합니다. RALU은 세 단계에 걸쳐 혼합 해상도 샘플링을 수행합니다: 1) 전역적 의미 구조를 효율적으로 포착하기 위한 저해상도 잡음 제거 잠재 디퓨전, 2) 전체 해상도에서 아티팩트가 발생하기 쉬운 특정 영역에 대한 지역 적응형 업샘플링, 그리고 3) 세부 사항 정제를 위한 전체 해상도의 잠재 업샘플링. 해상도 전환 간 생성물의 안정성을 위해, 우리는 다양한 해상도에 걸쳐 노이즈 레벨을 조정하기 위해 노이즈-타임스텝 재스케줄링을 활용합니다. 우리의 방법은 FLUX에서 최대 7.0배, Stable Diffusion 3에서 3.0배의 속도 향상을 달성하면서도 최소한의 품질 저하로 계산량을 크게 줄입니다. 더욱이, RALU은 캐싱 방법과 같은 기존의 시간적 가속화 기술과 상호 보완적이므로, 생성 품질을 저하시키지 않으면서도 추론 지연 시간을 더욱 줄이기 위해 원활하게 통합될 수 있습니다.
인간은 복잡한 문제를 해결할 때 종종 다이어그램이나 스케치와 같은 시각적 보조 도구를 사용합니다. 이를 모방하여 다중모달 모델을 훈련시키는 것은 시각적 사고 연쇄(Visual Chain of Thought, Visual CoT)라고 불리며, 다음과 같은 이유로 도전적입니다: (1) 즉시 사용 가능한 시각적 CoT 성능이 낮아 강화 학습을 방해하고, (2) 고품질 시각적 CoT 훈련 데이터가 부족합니다. 우리는 Zebra-CoT라는 182,384개의 샘플로 구성된 다양하고 대규모 데이터셋을 소개합니다. 이 데이터셋은 논리적으로 일관된 텍스트-이미지 추적을 포함하고 있습니다. 우리는 스케치나 시각적 추론이 특히 자연스러운 네 가지 범주의 작업에 초점을 맞추었습니다: 기하학, 물리학, 알고리즘과 같은 과학적 질문; 시각적 탐색과 직소 퍼즐과 같은 2D 시각적 추론 작업; 3D 다중 홉 추론, 구현 및 로봇 계획을 포함한 3D 추론 작업; 시각적 논리 문제 및 체스와 같은 전략 게임. Anole-7B 모델을 Zebra-CoT 훈련 코퍼스로 미세 조정한 결과, 테스트 세트 정확도에서 +12%의 향상을 보였으며, 표준 VLM 벤치마크 평가에서 최대 +13%의 성능 향상을 달성했습니다. Bagel-7B를 미세 조정하면 고품질의 인터리브된 시각적 추론 체인을 생성하는 모델이 만들어져, Zebra-CoT가 다중모달 추론 능력 개발에 효과적임을 입증했습니다. 우리는 시각적 CoT의 개발과 평가를 지원하기 위해 데이터셋과 모델을 오픈소스로 공개합니다.
대규모 시각-언어 모델(LVLMs)에 시각적 느린 사고 추론 능력을 강화하는 것은 복잡한 다중모드 작업을 해결하는 데 중요합니다. 그러나 LVLMs는 주로 시각-언어 정렬로 훈련되기 때문에, 초기 능력에 의해 롤아웃 공간이 제한되어 느린 사고 능력을 개발하기 위해 온-정책 강화 학습(RL)을 적용하기 어렵습니다. 오프-정책 RL은 현재 정책을 넘어설 수 있는 방법을 제공하지만, 외부 모델에서 직접 궤적을 추출하면 모델 간 시각 인식 능력의 불일치로 인해 시각적 환각이 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 SOPHIA라는 간단하고 확장 가능한 시각-언어 느린 사고 추론을 위한 준-오프-정책 RL을 제안합니다. SOPHIA는 훈련 가능한 LVLM의 온-정책 시각 이해와 언어 모델의 오프-정책 느린 사고 추론을 결합하여 준-오프-정책 행동 모델을 구축하고, 추론에 결과 기반 보상을 할당하며, 시각적 보상을 역전파합니다. 그런 다음 LVLM은 오프-정책 RL 알고리즘을 통해 얻은 추론 궤적에서 느린 사고 추론 능력을 학습합니다. 8B 및 38B 크기의 InternVL2.5 및 InternVL3.0을 사용한 광범위한 실험은 SOPHIA의 효과를 보여줍니다. 특히, SOPHIA는 InternVL3.0-38B를 평균 8.50% 향상시켜, 여러 다중모드 추론 벤치마크에서 오픈소스 LVLMs 중 최신 성능을 달성했으며, 도전적인 MathVision 및 OlympiadBench에서 일부 폐쇄형 모델(예: GPT-4.1)을 능가하여 각각 49.08% 및 49.95%의 pass@1 정확도를 달성했습니다. 분석 결과, SOPHIA는 지도 미세 조정 및 직접 온-정책 RL 방법을 능가하며, 추가 온-정책 훈련을 위한 더 나은 정책 초기화를 제공합니다.
비전-언어 모델(VLMs)은 자율적인 계획을 가능하게 하기 위해 로봇 공학에서 널리 채택되고 있습니다. 그러나 인터넷 데이터로 원래 훈련된 VLMs을 다양한 실제 로봇에 적용하는 것은 여전히 과제로 남아 있습니다. 본 논문은 ExpTeach를 소개하며, 이 프레임워크는 실제 경험의 자체 생성된 메모리를 구축하여 VLMs을 물리적 로봇에 적용합니다. ExpTeach에서 VLM은 자율적으로 행동을 계획하고, 결과를 검증하며, 실패를 반영하고, 폐쇄 루프에서 로봇 행동을 조정합니다. 이 과정에서 자체 생성된 경험은 장기 기억으로 요약되어, 검색 증강 생성(RAG)을 통해 미래 작업을 안내하기 위해 학습된 지식을 검색할 수 있게 합니다. 또한, ExpTeach는 주문형 이미지 주석 모듈을 통해 VLMs의 공간 이해를 향상시킵니다. 실험에서, 우리는 반영이 네 가지 도전적인 로봇 작업에서 성공률을 36%에서 84%로 향상시키는 것을 보여주었고, 창의적인 도구 사용을 포함한 지능적인 물체 상호작용의 출현을 관찰했습니다. 12가지 실제 시나리오(여덟 가지는 보지 못한 것 포함)에 대한 광범위한 테스트에서, 장기 기억을 통한 적용이 단일 시도 성공률을 22%에서 80%로 높이는 것을 발견했으며, 이는 ExpTeach의 효과성과 일반화 가능성을 입증합니다.
대규모 언어 모델(LLMs)의 급속한 발전과 함께, 정확한 지도를 위한 효과적인 비평 모듈 개발은 중요하면서도 도전적인 과제로 대두되고 있다. 본 논문에서는 먼저, 현재 널리 채택되고 있는 지도 학습 기반의 비평 모듈 구축 방식이 모델의 비평 능력을 진정으로 향상시키지 못하고, 충분한 반성과 검증이 부족한 피상적인 비평을 생성한다는 점을 실증적으로 보여준다. 이를 해결하기 위해, 우리는 이전에 없던 비평 능력을 발휘할 수 있는 RefCritic을 제안한다. RefCritic은 이중 규칙 기반 보상을 활용한 강화 학습에 기반한 장기 사고 사슬(long-chain-of-thought) 비평 모듈로, (1) 해결 판단의 사례 수준 정확성과 (2) 비평을 기반으로 한 정책 모델의 개선 정확성을 목표로 하여, 모델 개선을 효과적으로 이끌 수 있는 실행 가능한 피드백과 함께 고품질의 평가를 생성한다. 우리는 RefCritic을 Qwen2.5-14B-Instruct와 DeepSeek-R1-Distill-Qwen-14B 모델에 적용하여 다섯 가지 벤치마크에서 평가하였다. 비평 및 개선 설정에서 RefCritic은 모든 벤치마크에서 일관된 우위를 보였으며, 예를 들어 AIME25에서 각각의 기본 모델에 대해 6.8%와 7.2%의 성능 향상을 달성했다. 특히, 다수결 투표 하에서 RefCritic으로 필터링된 정책 모델은 투표 수가 증가함에 따라 우수한 확장성을 보였다. 또한, 해결 수준의 지도 학습으로 훈련되었음에도 불구하고, RefCritic은 수학적 추론에서 오류가 있는 단계를 식별하는 벤치마크인 ProcessBench에서 단계 수준의 지도 학습 접근법을 능가하는 성능을 보였다.
기존의 이미지 기반 합성 방법들은 사용자가 지정한 배경 이미지 영역에 전경 객체를 삽입하고, 해당 영역 내부를 자연스럽게 혼합하면서 나머지 이미지는 변경하지 않는 데 도움을 줄 수 있지만, 인간-객체 상호작용이 포함된 작업에서 원활한 상호작용 인지 합성을 생성하는 데 어려움을 겪는 경우가 많다는 것을 관찰했습니다. 본 논문에서는 먼저 HOComp를 제안합니다. 이는 인간 중심의 배경 이미지에 전경 객체를 합성하면서 전경 객체와 배경 속 사람 간의 조화로운 상호작용과 일관된 외관을 보장하는 새로운 접근법입니다. 우리의 접근법은 두 가지 주요 설계를 포함합니다: (1) MLLMs 기반 영역별 포즈 가이던스(MRPG)는 MLLMs를 활용하여 상호작용 영역과 상호작용 유형(예: 들기, 올리기)을 식별하고, 인간 포즈 랜드마크를 통합하여 동작 변화를 추적하며 세밀한 포즈 제약을 적용하여 상호작용을 위한 포즈를 거친 단계에서 세밀한 단계까지 제약을 제공합니다. (2) 세부 일관성 외관 보존(DCAP)은 형태 인지 주의 조절 메커니즘, 다중 시각 외관 손실, 배경 일관성 손실을 통합하여 전경의 일관된 형태/질감과 배경 속 인간의 충실한 재현을 보장합니다. 또한, 이 작업을 위해 상호작용 인지 인간-객체 합성(IHOC)이라는 첫 번째 데이터셋을 제안합니다. 우리의 데이터셋에 대한 실험 결과는 HOComp가 일관된 외관과 함께 조화로운 인간-객체 상호작용을 효과적으로 생성하며, 관련 방법들을 질적 및 양적으로 능가함을 보여줍니다.
대규모 언어 모델(LLMs)의 최근 발전은 학술 문헌 검색에 새로운 기회를 열어주었다. 그러나 기존 시스템은 주로 경직된 파이프라인에 의존하며 제한된 추론 능력을 보인다. 본 연구에서는 보다 유연하고 효과적인 검색을 가능하게 하는 RefChain 기반 질의 분해와 질의 진화를 통합한 다중 에이전트 프레임워크인 SPAR를 소개한다. 체계적인 평가를 위해 전문가가 관련성 레이블을 부여한 도전적인 벤치마크인 SPARBench도 구축하였다. 실험 결과, SPAR는 강력한 베이스라인 대비 AutoScholar에서 최대 +56% F1, SPARBench에서 +23% F1의 성능 향상을 달성하며 크게 우수한 성능을 보였다. SPAR와 SPARBench는 학술 검색 연구를 발전시키기 위한 확장 가능하고 해석 가능하며 고성능의 기반을 제공한다. 코드와 데이터는 https://github.com/xiaofengShi/SPAR에서 확인할 수 있다.
양자화(Quantization)는 네트워크 파라미터를 더 낮은 정밀도로 표현함으로써 네트워크 크기와 계산 복잡성을 줄이는 핵심 기술입니다. 전통적인 양자화 방법은 원본 학습 데이터에 대한 접근에 의존하는데, 이는 프라이버시 문제나 보안 문제로 인해 종종 제한됩니다. 제로샷 양자화(Zero-shot Quantization, ZSQ)는 사전 훈련된 모델에서 생성된 합성 데이터를 사용하여 실제 학습 데이터의 필요성을 없애는 방식으로 이 문제를 해결합니다. 최근에는 ZSQ가 객체 탐지 분야로 확장되었습니다. 그러나 기존 방법들은 객체 탐지에 필요한 특정 정보가 부족한 레이블이 없는 작업 독립적(task-agnostic) 합성 이미지를 사용하여 최적의 성능을 달성하지 못하는 문제가 있습니다. 본 논문에서는 객체 탐지 네트워크를 위한 새로운 작업 특화적(task-specific) ZSQ 프레임워크를 제안합니다. 이 프레임워크는 두 가지 주요 단계로 구성됩니다. 첫째, 사전 훈련된 네트워크에서 작업 특화적 캘리브레이션 세트를 합성하기 위해 바운딩 박스와 카테고리 샘플링 전략을 도입하여 사전 지식 없이도 객체 위치, 크기, 카테고리 분포를 재구성합니다. 둘째, 지식 증류(knowledge distillation) 과정에 작업 특화적 훈련을 통합하여 양자화된 탐지 네트워크의 성능을 복원합니다. MS-COCO 및 Pascal VOC 데이터셋에서 수행된 광범위한 실험을 통해 우리 방법의 효율성과 최첨단 성능을 입증했습니다. 우리의 코드는 https://github.com/DFQ-Dojo/dfq-toolkit 에서 공개되어 있습니다.
AI 시스템을 개인화하기 위해서는 사용자의 선호뿐만 아니라 그 선호를 이끄는 근본적인 이유를 이해해야 하지만, 현재의 선호 모델들은 일반적으로 인간의 판단을 블랙박스로 취급합니다. 우리는 PrefPalette를 소개합니다. 이 프레임워크는 선호를 속성 차원으로 분해하고, 인간이 이해할 수 있는 방식으로 각기 다른 사회 공동체의 가치에 맞춰 선호 예측을 조정합니다. PrefPalette는 다중 속성 의사결정이라는 인지과학 원리를 두 가지 방식으로 구현합니다: (1) 개별 속성 효과(예: 형식성, 유머, 문화적 가치)를 분리하기 위해 합성 훈련 데이터를 생성하는 확장 가능한 반사실적 속성 합성 단계, 그리고 (2) 다양한 사회 공동체가 이러한 속성을 동적으로 가중치를 부여하는 방식을 학습하는 주의 기반 선호 모델링. 이 접근법은 집계된 선호 모델링을 넘어 인간 판단을 이끄는 다양한 평가 프레임워크를 포착합니다. 온라인 플랫폼 Reddit의 45개 사회 공동체에서 평가한 결과, PrefPalette는 평균 예측 정확도에서 GPT-4o를 46.6% 앞섰습니다. 단순한 예측 성능 향상 이상으로, PrefPalette는 직관적이고 공동체 특화된 프로파일을 밝혀냈습니다: 학술적 공동체는 장황함과 자극을 우선시하고, 갈등 지향적 공동체는 비꼼과 직설성을 중요하게 여기며, 지원 기반 공동체는 공감을 강조합니다. 인간 판단의 속성 매개 구조를 모델링함으로써, PrefPalette는 우수한 선호 모델링과 투명하고 해석 가능한 통찰을 제공하며, 더 신뢰할 수 있고 가치를 인지한 개인화 애플리케이션을 위한 첫걸음을 내딛습니다.
3D 가우시안 스플래팅(3D Gaussian Splatting)은 높은 정밀도의 재구성과 실시간 새로운 시점 합성으로 유명하지만, 의미론적 이해의 부재로 인해 객체 수준의 인식이 제한적입니다. 본 연구에서는 3D 장면 재구성과 의미론적 이해를 통합한 객체 인식 프레임워크인 ObjectGS를 제안합니다. ObjectGS는 장면을 통합된 전체로 취급하는 대신, 개별 객체를 신경 가우시안을 생성하고 객체 ID를 공유하는 로컬 앵커로 모델링함으로써 정밀한 객체 수준의 재구성을 가능하게 합니다. 학습 과정에서 이러한 앵커를 동적으로 확장하거나 제거하며 특징을 최적화하고, 원-핫(one-hot) ID 인코딩과 분류 손실을 통해 명확한 의미론적 제약을 강제합니다. 광범위한 실험을 통해 ObjectGS가 개방형 어휘(open-vocabulary) 및 범용 분할(panoptic segmentation) 작업에서 최신 방법을 능가할 뿐만 아니라, 메시 추출 및 장면 편집과 같은 애플리케이션과도 원활하게 통합됨을 입증합니다. 프로젝트 페이지: https://ruijiezhu94.github.io/ObjectGS_page
최근 Zaremba 등은 추론 시 계산량을 증가시키는 것이 대규모 독점 추론 대형 언어 모델(LLM)의 견고성을 향상시킨다는 것을 입증했다. 본 논문에서는 먼저 소규모 오픈소스 모델(예: DeepSeek R1, Qwen3, Phi-reasoning)도 간단한 예산 강제 전략을 통해 추론 시 스케일링의 이점을 얻을 수 있음을 보인다. 더 중요한 것은, 우리는 기존 연구에서 암묵적으로 가정한 바, 즉 중간 추론 단계가 공격자로부터 숨겨져 있다는 가정을 밝히고 비판적으로 검토한다. 이 가정을 완화함으로써, 우리는 중요한 보안 위험을 식별하고, 이는 직관적으로 동기 부여되고 경험적으로 검증된 역 스케일링 법칙으로 나타난다: 중간 추론 단계가 명시적으로 접근 가능해지면, 증가된 추론 시 계산량은 모델의 견고성을 지속적으로 감소시킨다. 마지막으로, 우리는 도구 통합 추론 및 고급 추론 추출 공격과 같은 공격에 여전히 취약한 숨겨진 추론 체인을 가진 모델의 실제 시나리오를 논의한다. 우리의 연구 결과는 추론 시 스케일링의 견고성 이점이 공격 설정 및 배포 컨텍스트에 크게 의존한다는 것을 종합적으로 입증한다. 우리는 보안이 중요한 실제 애플리케이션에서 추론 시 스케일링을 적용하기 전에 이러한 미묘한 절충점을 신중히 고려할 것을 실무자들에게 촉구한다.
대규모 언어 모델(LLM)의 미세 조정은 의도하지 않은 분포 외 일반화를 초래할 수 있다. 이 문제에 대한 표준적인 접근 방식은 훈련 데이터를 수정하는 데 의존하며, 예를 들어 의도한 일반화를 더 잘 명시하는 데이터를 추가하는 방법이 있다. 그러나 이는 항상 실용적이지 않다. 본 연구에서는 개념 제거 미세 조정(CAFT) 기법을 소개한다. 이 기법은 해석 가능성 도구를 활용하여 LLM이 미세 조정에서 어떻게 일반화되는지를 제어하며, 훈련 데이터를 수정하거나 대상 분포의 데이터를 사용할 필요가 없다. CAFT는 LLM의 잠재 공간에서 원치 않는 개념에 해당하는 방향 집합이 주어졌을 때, 미세 조정 과정에서 이러한 개념을 선형 투영을 통해 제거함으로써 모델이 의도하지 않은 일반화에서 벗어나도록 유도한다. 우리는 CAFT를 세 가지 미세 조정 작업에 성공적으로 적용했으며, 이 중 하나는 LLM이 좁은 작업에 대해 미세 조정된 후 일반적인 질문에 심각하게 부정확한 응답을 하는 현상인 '발생적 부정합'이다. 미세 조정 데이터를 변경하지 않고도 CAFT는 부정합 응답을 10배 줄이면서도 훈련 분포에서의 성능을 저하시키지 않았다. 전반적으로, CAFT는 훈련 데이터를 수정하지 않고도 LLM 일반화를 조절하는 새로운 접근 방식을 제시한다.