번역이 포함된 일일 선별된 AI 연구 논문
우리는 추론 과정에서 단계별 추론을 생성함과 동시에 외부 피드백 없이도 자신의 출력 결과를 평가할 수 있는 자기 보상형 추론 대형 언어 모델(LLMs)을 연구한다. 이 통합 접근법은 단일 모델이 독립적으로 자신의 추론 과정을 이끌어갈 수 있게 하여, 모델 배포에 있어 계산적 이점을 제공한다. 특히, 모델이 자율적으로 응답의 오류를 감지하고 출력을 수정하며 반복적 정제 루프를 언제 종료할지 결정하는 자기 수정(self-correction)이라는 대표적인 작업에 초점을 맞춘다. 이를 위해, 우리는 자기 생성 데이터만을 사용하여 자기 보상형 추론 모델을 구축하기 위한 두 단계의 알고리즘 프레임워크를 제안한다. 첫 번째 단계에서는 자기 보상 및 자기 수정 메커니즘을 포함한 긴 사고 사슬(chain-of-thought) 궤적을 합성하기 위해 순차적 거부 샘플링(sequential rejection sampling)을 활용한다. 이러한 정제된 데이터를 통해 모델을 미세 조정함으로써, 모델이 자기 보상 및 자기 수정 패턴을 학습할 수 있게 한다. 두 번째 단계에서는 규칙 기반 신호를 활용한 강화 학습(reinforcement learning)을 통해 모델의 응답 정확도 평가 및 출력 정제 능력을 더욱 강화한다. Llama-3 및 Qwen-2.5를 사용한 실험 결과, 우리의 접근법은 내재적 자기 수정 능력을 뛰어넘으며 외부 보상 모델에 의존하는 시스템과 비슷한 성능을 달성함을 보여준다.
추론은 의료 이미지 분석을 발전시키는 핵심 분야로, 투명성과 신뢰성은 의료진의 신뢰뿐만 아니라 규제 승인에서도 중요한 역할을 합니다. 의료 비주얼 언어 모델(Medical Visual Language Models, VLMs)은 방사선 작업에 대한 잠재력을 보여주지만, 대부분의 기존 VLM은 근본적인 추론을 드러내지 않고 최종 답변만을 제시합니다. 이 간극을 해결하기 위해 우리는 투명성과 신뢰성을 강화하기 위해 자연어 추론을 명시적으로 생성하는 의료 VLM인 MedVLM-R1을 소개합니다. MedVLM-R1은 훈련 분포에 과적합되는 문제와 진정한 추론을 육성하지 못하는 문제를 가지고 있는 지도된 미세조정(Supervised Fine-Tuning, SFT)에 의존하는 대신, 추론 참조를 사용하지 않고 인간이 이해할 수 있는 추론 경로를 발견하도록 모델을 장려하는 강화 학습 프레임워크를 사용합니다. 600개의 시각적 질문 응답 샘플과 2B의 모델 매개변수로 한정된 훈련 데이터에서 MedVLM-R1은 MRI, CT 및 X-ray 벤치마크에서 정확도를 55.11%에서 78.22%로 향상시켰으며, 백만 개 이상의 샘플로 훈련된 더 큰 모델을 능가했습니다. 또한, 분포 이탈 작업에서 강건한 도메인 일반화를 보여줍니다. 의료 이미지 분석과 명시적 추론을 통합함으로써, MedVLM-R1은 임상 실무에서 신뢰할 수 있고 해석 가능한 AI로 나아가는 중요한 한 걸음을 나아갑니다.
대규모 멀티모달 모델(LMMs)에서 비언어적 모달리티(예: 시각적 표현)의 인식 능력은 일반적으로 대규모 언어 모델(LLMs)의 강력한 추론 능력에 미치지 못하며, 이는 LMMs가 도전적인 다운스트림 작업에서의 성능을 저하시키는 요인으로 작용합니다. 이러한 약점은 최근 비전 인코더를 전문가 혼합(MoE) 방식으로 대체함으로써 완화되었는데, 이는 다양한 다운스트림 작업에 필요한 풍부하고, 다중 세분성 및 다양한 표현을 제공합니다. 멀티모달 MoE의 성능은 주로 라우터에 달려 있으며, 이 라우터는 각 입력에 대해 서로 다른 전문가들의 표현을 재가중하고 혼합합니다. 그러나 우리는 종단간 학습된 라우터가 모든 테스트 샘플에 대해 최적의 라우팅 가중치를 항상 생성하지는 않는다는 사실을 발견했습니다. 이러한 격차를 해소하기 위해, 우리는 테스트 시간에 라우팅 가중치 벡터를 테스트 샘플의 이웃에 있는 올바르게 예측된 샘플들의 벡터 방향으로 이동시켜 국소적으로 최적화하는 "테스트 시간 재라우팅(Re-Routing in Test-Time, R2-T2)"이라는 새로운 효율적인 방법을 제안합니다. 우리는 서로 다른 최적화 목표와 이웃 탐색 공간을 가진 세 가지 R2-T2 전략을 제안합니다. R2-T2는 기본 모델의 매개변수를 추가로 학습하지 않고도, 다양한 작업의 도전적인 벤치마크에서 최첨단 LMMs의 성능을 일관되게 크게 향상시킵니다.
LongRoPE2은 사전 훈련된 대규모 언어 모델(LLM)의 효과적인 컨텍스트 윈도우를 목표 길이로 확장하면서도 원래의 짧은 컨텍스트 윈도우에서의 성능을 유지하는 새로운 접근 방식입니다. 이는 세 가지 주요 기여를 통해 달성됩니다: (1) 기존 방법에서 관찰된 지속적인 분포 외(OOD) 문제가 높은 RoPE 차원에서의 불충분한 훈련에 기인한다는 가설; (2) 불충분한 훈련 문제를 해결하기 위해 "바늘 주도" 퍼플렉서티에 의해 안내된 진화적 탐색을 채택한 효과적인 RoPE 재조정 알고리즘; (3) 긴 컨텍스트 시퀀스에 대해 재조정된 RoPE를 적용하면서도 원래의 RoPE를 사용하여 짧은 컨텍스트 성능을 유지하는 혼합 컨텍스트 윈도우 훈련 접근법. LLaMA3-8B와 Phi3-mini-3.8B를 다양한 벤치마크에서 진행한 광범위한 실험을 통해 이 가설을 검증하고 LongRoPE2의 효과성을 입증했습니다. 특히, LongRoPE2은 LLaMA3-8B의 효과적인 컨텍스트 길이를 128K로 확장하면서도 짧은 컨텍스트 성능의 98.5% 이상을 유지하며, 단 10B 토큰만 사용했습니다. 이는 메타의 접근 방식보다 80배 적은 토큰 수로, 메타의 방법은 목표한 효과적인 컨텍스트 길이에 도달하지 못했습니다. 코드는 https://github.com/microsoft/LongRoPE에서 제공될 예정입니다.
최근 아키텍처, 사전 학습, 미세 조정 분야의 혁신으로 LLaMA와 DeepSeek과 같은 대규모 자기회귀 언어 모델의 놀라운 문맥 학습 및 추론 능력이 주목받고 있습니다. 반면, BERT와 RoBERTa와 같은 인코더 모델들은 많은 다운스트림 NLP 애플리케이션의 기초가 되었음에도 불구하고 동일한 수준의 발전을 이루지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 NeoBERT를 소개합니다. NeoBERT는 최신 아키텍처 발전, 현대적인 데이터, 그리고 최적화된 사전 학습 방법론을 통합하여 양방향 모델의 능력을 재정의한 차세대 인코더입니다. NeoBERT는 원활한 도입을 위해 설계되었습니다: 기존 베이스 모델을 플러그 앤 플레이 방식으로 대체할 수 있으며, 최적의 깊이-너비 비율을 유지하고, 4,096 토큰의 확장된 문맥 길이를 활용합니다. 250M 파라미터라는 컴팩트한 크기임에도 불구하고, NeoBERT는 대규모 MTEB 벤치마크에서 최첨단 성능을 달성하며, 동일한 미세 조정 조건 하에서 BERT large, RoBERTa large, NomicBERT, ModernBERT를 능가합니다. 또한, 우리는 GLUE에서 각 수정 사항의 영향을 엄격히 평가하고, MTEB를 위한 통일된 미세 조정 및 평가 프레임워크를 설계했습니다. 연구와 실제 도입을 가속화하기 위해 모든 코드, 데이터, 체크포인트, 그리고 학습 스크립트를 공개합니다.
시각 생성과 이해 간의 표현 차이는 이러한 능력을 단일 프레임워크로 통합하는 데 있어 중요한 격차를 야기합니다. 이 격차를 해소하기 위해, 우리는 세부적인 생성 정보를 인코딩하면서도 고수준의 의미를 포착하는 이산 시각 토크나이저인 UniTok을 소개합니다. 최근 연구들은 이러한 목표들이 훈련 과정에서 손실 충돌을 유발할 수 있음을 보여주었지만, 우리는 근본적인 병목 현상이 이산 토큰의 제한된 표현 능력에서 비롯됨을 밝혔습니다. 이를 해결하기 위해, 우리는 여러 독립적인 서브 코드북으로 벡터 양자화를 분할하여 잠재 특징 공간을 확장하면서도 과도하게 큰 코드북으로 인한 훈련 불안정성을 피하는 다중 코드북 양자화를 도입했습니다. 우리의 방법은 통합 이산 토크나이저의 상한선을 크게 높여 도메인 특화 연속 토크나이저와 견줄 만하거나 이를 능가하는 성능을 달성합니다. 예를 들어, UniTok은 ImageNet에서 0.38의 rFID(SD-VAE의 0.87 대비)와 78.6%의 제로샷 정확도(CLIP의 76.2% 대비)를 기록했습니다. 우리의 코드는 https://github.com/FoundationVision/UniTok에서 확인할 수 있습니다.
고급 텍스트-이미지 생성 분야는 강력한 텍스트 인코더인 CLIP와 T5와 Diffusion Transformer 백본을 통합하는 통합 프레임워크의 등장을 목격하고 있습니다. 추가 조건인 canny 및 깊이 맵과 같은 추가 조건으로 출력 이미지를 제어하는 노력이 있었지만, 임의의 텍스트-이미지 교차 제어를 위한 포괄적인 프레임워크는 아직 부족합니다. 이 간극은 특히 여러 이미지에서 개념이나 시각적 요소를 병합하려는 시도할 때 특히 뚜렷합니다. 이 간극을 줄이기 위해 우리는 대규모 다모달 모델(LMMs)이 이미지와 텍스트를 외부 확산 모델의 조건으로 작용할 수 있는 효과적인 공유 표현 공간을 제공한다는 것을 보여주는 예비 실험을 실시했습니다. 이 발견을 기반으로 우리는 임의의 텍스트-이미지 교차 제어를 위해 설계된 효율적이고 통합된 프레임워크인 Dream Engine을 제안합니다. SD3.5와 같은 강력한 텍스트-이미지 모델을 기반으로, 우리는 다양한 다모달 정보 인코더인 QwenVL을 통합하여 원래의 텍스트 전용 인코더를 대체합니다. 우리의 접근 방식은 공동 텍스트-이미지 정렬 및 다모달 교차 지시 조정으로 구성된 두 단계 교육 패러다임을 활용합니다. 우리의 실험은 이 교육 방법이 효과적임을 보여주며, GenEval 벤치마크에서 전체 점수 0.69를 달성하고 SD3.5와 FLUX와 같은 최첨단 텍스트-이미지 모델의 성능을 맞추는 것을 보여줍니다.
많은 도전적인 추론 과제는 빠르고 직관적인 반응뿐만 아니라, 더 신중하고 다단계적인 접근 방식을 요구합니다. 최근 대형 언어 모델(LLM)의 발전은 빠른 반응을 특징으로 하는 "시스템 1" 방식에서 반성과 수정을 통한 문제 해결을 특징으로 하는 "시스템 2" 스타일로의 중요한 전환을 강조합니다. 그러나 현재의 벤치마크는 최종 답변의 정확도에 크게 의존하여 모델의 중간 추론 단계를 충분히 검토하지 못하고 있습니다. 이는 모델이 추론 과정에서 실수를 반성하고 수정하는 능력을 평가하는 데 실패합니다. 이러한 격차를 해소하기 위해, 우리는 LLM의 추론 능력을 세밀하게 평가하기 위한 논리 퍼즐 벤치마크인 FINEREASON을 소개합니다. 각 퍼즐은 원자 단계로 분해될 수 있어 중간 단계의 정확성을 엄격하게 검증하기에 이상적입니다. 이를 바탕으로, 우리는 모델이 현재 상황을 평가하고 다음 행동을 계획하는 방식을 종합적으로 평가하기 위한 두 가지 과제, 즉 상태 확인(state checking)과 상태 전이(state transition)를 도입했습니다. 더 넓은 연구를 지원하기 위해, 우리는 일반적인 수학 과제에서의 성능을 향상시키기 위한 퍼즐 훈련 세트도 제공합니다. 우리는 상태 확인 및 전이 데이터로 훈련된 모델이 GSM8K에서 수학 추론 능력이 최대 5.1% 향상됨을 보여줍니다.
대규모 언어 모델(LLMs)은 소프트웨어 공학 분야에서 탁월한 성능을 보여주고 있지만, 특히 서드파티 라이브러리 API의 빈번한 업데이트와 같은 지속적으로 진화하는 코드 지식에 적응하는 데 어려움을 겪고 있습니다. 이는 정적인 사전 학습 데이터셋에서 비롯된 한계로, 종종 실행 불가능한 코드나 안전성과 효율성이 떨어지는 구현을 초래합니다. 이를 해결하기 위해, 본 논문에서는 파이썬 서드파티 라이브러리에서 오래된 코드 패턴을 식별하고 실시간 코드 지식 업데이트를 수집하는 데이터 엔진인 CODESYNC를 소개합니다. CODESYNC를 기반으로, 우리는 코드 진화와 동기화 능력을 평가하기 위한 포괄적인 벤치마크인 CODESYNCBENCH를 개발했습니다. 이 벤치마크는 6개의 파이썬 라이브러리에서 220개의 API에 대한 실제 업데이트를 다루며, 세 가지 평가 작업에 걸쳐 3,300개의 테스트 케이스와 2,200개의 학습 샘플로 구성된 업데이트 인식 지시 튜닝 데이터셋을 제공합니다. 14개의 최신 LLMs에 대한 광범위한 실험 결과, 이들은 고급 지식 업데이트 방법(예: DPO, ORPO, SimPO)의 지원에도 불구하고 동적 코드 진화에 어려움을 겪는 것으로 나타났습니다. 우리는 이 벤치마크가 향후 실시간 코드 지식 업데이트를 위한 더 효과적인 방법 개발에 강력한 기반을 제공할 수 있을 것이라 믿습니다. 실험 코드와 데이터셋은 https://github.com/Lucky-voyage/Code-Sync에서 공개적으로 이용 가능합니다.
현대의 Diffusion Transformer는 놀라운 성능을 보이지만, 각 노이즈 제거 단계마다 고정적이고 많은 양의 계산이 필요하기 때문에 추론 과정에서 상당한 자원을 요구한다는 한계가 있습니다. 본 연구에서는 노이즈 제거 반복마다 고정된 계산 예산을 할당하는 기존의 정적 패러다임을 재검토하고, 대신 동적 전략을 제안합니다. 우리의 간단하고 샘플 효율적인 프레임워크는 사전 훈련된 DiT 모델을 유연한 모델로 변환할 수 있게 합니다. 이를 FlexiDiT라고 명명한 이 모델은 다양한 계산 예산에서 입력을 처리할 수 있습니다. 우리는 단일 유연 모델이 품질 저하 없이 이미지를 생성할 수 있음을 보여주며, 클래스 조건 및 텍스트 조건 이미지 생성 모두에서 정적 모델 대비 40% 이상의 FLOPs를 줄일 수 있음을 입증합니다. 우리의 방법은 일반적이며 입력 및 조건 방식에 구애받지 않습니다. 또한, 이 접근법이 비디오 생성으로 쉽게 확장될 수 있음을 보여주며, FlexiDiT 모델은 성능 저하 없이 최대 75% 적은 계산으로 샘플을 생성할 수 있습니다.
우리는 텍스트 설명으로부터 직접 사용자 주석 없이도 원활하게 반복되는 비디오를 생성하는 새로운 방법인 Mobius를 제안합니다. 이를 통해 멀티미디어 프레젠테이션을 위한 새로운 시각적 자료를 창출합니다. 우리의 방법은 사전 훈련된 비디오 잠재 확산 모델을 재활용하여 텍스트 프롬프트로부터 반복 비디오를 생성하며, 추가적인 훈련이 필요하지 않습니다. 추론 과정에서, 우리는 먼저 비디오의 시작과 끝 노이즈를 연결하여 잠재적 순환 구조를 구성합니다. 비디오 확산 모델의 컨텍스트를 통해 시간적 일관성을 유지할 수 있으므로, 각 단계에서 첫 프레임의 잠재 상태를 끝으로 점진적으로 이동시키며 다중 프레임 잡음 제거를 수행합니다. 그 결과, 추론 과정 전반에 걸쳐 일관성을 유지하면서도 각 단계에서 잡음 제거 컨텍스트가 변화합니다. 또한, 우리 방법의 잠재적 순환 구조는 어떤 길이든 가능하며, 이는 비디오 확산 모델의 컨텍스트 범위를 넘어서는 원활한 반복 비디오 생성을 위한 잠재적 이동 접근법을 확장합니다. 기존의 시네마그래프와 달리, 제안된 방법은 생성 결과의 움직임을 제한할 수 있는 이미지를 외관으로 요구하지 않습니다. 대신, 우리의 방법은 더 역동적인 움직임과 더 나은 시각적 품질을 생성할 수 있습니다. 우리는 제안된 방법의 효과를 검증하기 위해 다양한 실험과 비교를 수행하며, 다양한 시나리오에서의 효용성을 입증합니다. 모든 코드는 공개될 예정입니다.
자기회귀(AR) 모델링은 다음 토큰 예측 패러다임으로 알려져 있으며 최첨단 언어 및 시각 생성 모델을 뒷받침합니다. 기존에는 "토큰"이 종종 언어의 이산 기호나 시각에서 양자화된 패치와 같이 가장 작은 예측 단위로 취급되었습니다. 그러나 2D 이미지 구조에 대한 최적의 토큰 정의는 여전히 미해결된 문제입니다. 또한 AR 모델은 훈련 중 교사 강제로 인해 추론 시 오류가 누적되는 노출 편향 문제가 있습니다. 본 논문에서는 토큰을 개체 X로 확장하는 일반화된 AR 프레임워크인 xAR을 제안합니다. 이 X는 개별 패치 토큰, 셀(이웃 패치의 k x k 그룹화), 서브샘플(먼 거리 패치의 비지역 그룹화), 스케일(거친 해상도부터 미세한 해상도까지) 또는 전체 이미지를 나타낼 수 있습니다. 또한 이산 토큰 분류를 연속적인 개체 회귀로 재정의하여 각 AR 단계에서 흐름 일치 방법을 활용합니다. 이 접근 방식은 훈련을 노이즈가 있는 개체에 조건을 걸어 실제 토큰이 아닌 것에 대해 훈련하므로 노출 편향을 효과적으로 완화하는 Noisy Context Learning을 이끌어냅니다. 결과적으로 xAR은 두 가지 주요 이점을 제공합니다: (1) 다양한 문맥적 세분성과 공간 구조를 포착하는 유연한 예측 단위를 가능하게 하며, (2) 교사 강제에 의존하지 않고 노출 편향을 완화합니다. ImageNet-256 생성 벤치마크에서 우리의 베이스 모델인 xAR-B(172M)는 DiT-XL/SiT-XL(675M)을 능가하면서 추론 속도가 20배 빠릅니다. 한편, xAR-H는 FID가 1.24로 새로운 최첨단을 세우며, 시각 기반 모듈(DINOv2 등)이나 고급 가이드 간격 샘플링에 의존하지 않고 이전 최고 성능 모델보다 2.2배 빠른 속도로 작동합니다.
컴퓨터 비전에서 관절이 있는 물체를 구축하는 것은 주요한 도전 과제입니다. 기존 방법들은 종종 서로 다른 물체 상태 간의 정보를 효과적으로 통합하지 못하여 부분 메쉬 재구성 및 부분 역학 모델링의 정확도를 제한하는데, 특히 복잡한 다부분 관절이 있는 물체에 대해 그렇습니다. 우리는 이러한 문제를 해결하기 위해 유연하고 효율적인 표현으로 3D 가우시안을 활용하는 새로운 접근 방식인 ArtGS를 소개합니다. 우리의 방법은 서로 다른 물체 상태 간의 관절 부분 정보를 정렬하기 위해 초기화 및 업데이트를 위해 대표적인 가우시안을 포함하고, 부분 역학 모델링 모듈로 스킨닝을 영감으로 삼아 부분 메쉬 재구성과 관절 학습을 모두 개선합니다. 복합적인 다부분 물체에 대한 새로운 벤치마크를 포함한 합성 및 현실 세계 데이터셋에서의 광범위한 실험 결과는 ArtGS가 합동 매개변수 추정 및 부분 메쉬 재구성에서 최고 수준의 성능을 달성한다는 것을 입증합니다. 우리의 방법은 특히 다부분 관절이 있는 물체에 대해 재구성 품질과 효율성을 크게 향상시킵니다. 또한, 우리는 각 구성 요소의 효과를 검증하여 향후 개선 가능성을 강조하기 위해 설계 선택의 포괄적인 분석을 제공합니다.
인간 피드백을 통한 강화 학습(RLHF)에서 근위 정책 최적화(PPO) 기반 접근법은 대규모 언어 모델(LLM)을 인간의 선호에 맞추는 데 필수적입니다. 이 방법은 사전 학습된 고정 보상 모델을 지침으로 하여 행위자(actor)와 평가자(critic)를 함께 훈련시키는 것을 요구합니다. 이러한 접근법은 행위자와 평가자의 상호 의존성으로 인해 계산 복잡성과 불안정성을 증가시킵니다. 또한, PPO는 LLM 작업에서 실제 환경 보상에 접근할 수 없어 적응성이 제한됩니다. 이러한 조건 하에서, 가치 모델이나 보상 모델을 사전 학습하는 것은 동등한 효과를 가지며, 둘 다 새로운 실측 피드백 없이 고정된 지도 신호를 제공합니다. 이러한 문제를 해결하기 위해, 우리는 전통적인 보상 모델링을 사전 학습된 전역 가치 모델(GVM)로 대체하는 간결한 프레임워크인 분리된 가치 정책 최적화(DVPO)를 제안합니다. GVM은 정책 궤적에 조건화되어 토큰 수준의 미래 반환값(return-to-go)을 예측합니다. 가치 모델을 정책 훈련에서 분리함으로써(고정된 GVM 기반 RL 목표를 통해), DVPO는 행위자와 평가자의 상호 의존성을 제거하여 GPU 메모리 사용량을 40%, 훈련 시간을 35% 줄입니다. 다양한 벤치마크에서의 실험 결과, DVPO는 효율적인 RLHF 방법(예: DPO)을 능가하면서도 최신 PPO와 동등한 성능을 보여줍니다.
대규모 언어 모델을 사용하는 자율 AI 에이전트들은 사회 전 영역에서 명백한 가치를 창출할 수 있지만, 신뢰와 안전 문제가 발생하여 즉각적인 보호 솔루션이 필요한 보안 위협에 직면하고 있습니다. 다수의 샷 탈옥과 속임수 정렬을 고급 공격의 주요 원인으로 고려할 때, 감독된 훈련 중 사용된 정적 가드레일로는 완화할 수 없는 이러한 공격은 실제 세계에서의 견고성에 대한 중요한 연구 우선 순위를 지적합니다. 정적 가드레일의 결합은 동적 다중 에이전트 시스템에서 이러한 공격에 대항할 수 없습니다. 우리는 LLM 기반 에이전트들의 보안을 강화하기 위해 새로운 평가 프레임워크를 개발하여 안전한 운영 배치를 위한 위협을 식별하고 대응하고자 합니다. 우리의 연구는 로그 에이전트를 탐지하기 위한 역 튜링 테스트를 통해 속임수 정렬을 분석하고, GEMINI 1.5 pro 및 llama-3.3-70B, deepseek r1 모델을 사용하여 도구 중재적 공격 시나리오로 시험하여 반 탈옥 시스템을 개발합니다. GEMINI 1.5 pro의 경우 94%의 정확도와 같이 감지 능력이 강하지만, 시스템은 공격 길이가 증가함에 따라 지속적인 취약점을 가지며 공격 성공률(ASR)이 증가하고 다양성 지표가 예측에서 효과가 없어지며 여러 복잡한 시스템 결함이 드러납니다. 이러한 결과는 에이전트 자체에 의한 적극적인 모니터링을 기반으로 하는 유연한 보안 시스템 채택의 필요성을 보여주며, 현재 모델은 신뢰할 수 없고 취약한 시스템으로 이어질 수 있는 취약점을 만들어냅니다. 따라서, 우리의 연구에서는 이러한 상황에 대처하고 보안 문제에 대항하기 위한 포괄적인 프레임워크를 제안하고자 합니다.
주류 이슈 해결 프레임워크는 주로 상용 모델에 의존하여 높은 비용과 프라이버시 문제를 야기합니다. 기존의 이슈 해결을 위한 학습 접근법은 일반화가 부족하고 오픈소스 개발 자원을 충분히 활용하지 못하는 한계가 있습니다. 우리는 LLM(Large Language Model)의 이슈 해결 능력을 향상시키기 위한 새로운 학습 접근법인 Subtask-oriented Reinforced Fine-Tuning (SoRFT)를 제안합니다. 이슈 해결을 파일 위치 파악, 함수 위치 파악, 라인 위치 파악, 코드 수정 생성과 같은 구조화된 하위 작업으로 분해합니다. SoRFT는 두 단계의 학습 과정으로 구성됩니다: (1) 거부 샘플링 기반 지도 미세 조정, 여기서는 Chain of Thought (CoT) 데이터를 그라운드 트루스(ground-truth)를 사용해 필터링한 후 LLM을 미세 조정하고, (2) 규칙 기반 강화 학습, 이는 PPO(Proximal Policy Optimization)와 그라운드 트루스 기반 보상을 활용합니다. 우리는 SoRFT로 학습된 모델을 SWE-Bench Verified와 SWE-Bench Lite에서 평가하여 오픈소스 모델 중 최고의 성능(예: SoRFT-Qwen-7B로 SWE-Bench Verified에서 21.4% 이슈 해결)을 달성했습니다. 실험 결과는 SoRFT가 이슈 해결 성능을 크게 향상시키고, 모델의 일반화를 개선하며, 상용 모델에 비해 비용 효율적인 대안을 제공함을 보여줍니다.
최근 DeepSeek-R1과 같은 추론 강화 대형 언어 모델(LLMs)의 혁신적인 발전에도 불구하고, 인간 번역가들이 자연스럽게 사용하는 구조화된 다층적 사고 사슬(CoTs)을 기계 번역(MT)에 통합하는 추론 시점 사고는 아직 충분히 탐구되지 않았다. 기존 방법들은 특정 MT 하위 작업(예: 문학 번역)에 맞춰 설계된 고정된 CoT를 사용하거나, 인간과 일치하지 않는 CoT를 합성하고 감독 미세 조정(SFT)에 의존하여 다양한 번역 시나리오에 대한 적응성을 제한하는 치명적 망각 문제를 겪고 있다. 본 논문은 인간과 일치하는 6가지 일반적인 패턴으로 구성된 CoT를 활용한 강화 학습(RL)을 통해 일반적인 MT를 위한 추론 시점 사고를 달성하는 새로운 프레임워크인 R1-Translator(R1-T1)를 소개한다. 우리의 접근 방식은 세 가지 혁신을 선도한다: (1) MT 하위 작업을 넘어 6개 언어와 다양한 작업(예: 법률/의학 도메인 적응, 관용구 해결)에 대한 추론 기반 번역을 확장; (2) 상황 인지적 패러프레이징 및 역번역과 같은 인간의 하이브리드 전략을 반영한 6가지 전문가가 선별한 CoT 템플릿을 공식화; (3) KL 제약 보상을 통한 RL을 통해 자기 진화적 CoT 발견 및 망각 방지 적응을 가능하게 함. 실험 결과는 Flores-101 테스트 세트에서 21개 언어와 80개 번역 방향에서 특히 훈련에서 보지 못한 15개 언어에서 꾸준한 번역 성능 향상을 보여주며, 일반적인 다국어 능력이 일반 SFT와 비교하여 유지됨을 나타낸다.
대규모 언어 모델(LLM)에서는 특정 뉴런이 사전 훈련 중에 학습한 구별되는 지식 조각을 저장할 수 있습니다. 지식은 일반적으로 관계와 개체의 조합으로 나타나지만, 일부 뉴런이 개체와는 독립적으로 관계 자체에 집중하는지 여부는 여전히 명확하지 않습니다. 우리는 이러한 뉴런이 입력 텍스트에서 관계를 감지하고 해당 관계를 포함하는 생성을 안내하는 것으로 가설을 세웁니다. 이를 조사하기 위해 우리는 선택한 일련의 관계에 대해 통계 기반 방법을 사용하여 Llama-2 패밀리를 연구합니다. 우리의 실험은 관계별 뉴런의 존재를 증명합니다. 우리는 관계 r에 특정한 후보 뉴런을 선택적으로 비활성화하는 것이 LLM이 (1) 관계가 r인 사실과 (2) 관계가 다른 관계 r'이 아닌 사실을 처리하는 능력에 미치는 영향을 측정합니다. 관계 정보를 인코딩하는 능력에 대해, 관계별 뉴런의 다음 세 가지 특성에 대한 증거를 제시합니다. (i) 뉴런 누적성. r에 대한 뉴런은 누적 효과를 나타내어 그 중요한 부분을 비활성화하면 r의 더 많은 사실이 저하됩니다. (ii) 뉴런 다용성. 뉴런은 여러 밀접하게 관련된 관계뿐만 아니라 덜 관련된 관계 사이에서 공유될 수 있습니다. 일부 관계 뉴런은 언어 간에 전이될 수 있습니다. (iii) 뉴런 간섭. 한 관계에 특정한 뉴런을 비활성화하면 다른 관계의 사실에 대한 LLM 생성 성능이 향상될 수 있습니다. 우리의 코드는 다음 주소에서 공개적으로 제공될 예정입니다: https://github.com/cisnlp/relation-specific-neurons.
최근 에이전트 프레임워크와 추론 시간 알고리즘은 복잡한 계획 문제에 대해 종종 생성된 계획을 검증하거나 단일 작업 내에서 발생하는 다양한 복잡성을 추론하는 제한으로 인해 어려움을 겪습니다. 이러한 작업에 대한 많은 기존 방법은 제약 조건을 고려하지 않고 작업 수준의 검증을 수행하거나 추론 시간 알고리즘을 적용하면서 인스턴스 수준의 복잡성에 적응하지 못합니다. 이러한 제한을 해결하기 위해 우리는 PlanGEN이라는 모델에 중립적이고 쉽게 확장 가능한 에이전트 프레임워크를 제안합니다. 이 프레임워크에는 제약, 검증 및 선택 에이전트라는 세 가지 주요 구성 요소가 있습니다. 구체적으로, 우리의 접근 방식은 제약으로 안내된 반복적인 검증을 제안하여 추론 시간 알고리즘인 Best of N, Tree-of-Thought 및 REBASE의 성능을 향상시킵니다. PlanGEN 프레임워크에서 선택 에이전트는 인스턴스 복잡성을 기반으로 알고리즘 선택을 최적화하여 복잡한 계획 문제에 대한 더 나은 적응성을 보장합니다. 실험 결과는 강력한 기준선을 크게 능가하여 NATURAL PLAN (약 8% 향상), OlympiadBench (약 4% 향상), DocFinQA (약 7% 향상) 및 GPQA (약 1% 향상)에서 최첨단 결과를 달성함을 보여줍니다. 우리의 주요 발견은 제약으로 안내된 반복적인 검증이 추론 시간 알고리즘을 개선하고 적응적 선택이 복잡한 계획 및 추론 문제에서 성능을 더욱 향상시킨다는 것을 강조합니다.
일관성 훈련(Consistency Training, CT)은 최근 확산 모델에 대안으로 부상하여 이미지 생성 작업에서 경쟁력 있는 성능을 달성하는 유망한 방법으로 등장했습니다. 그러나 비증류 일관성 훈련은 종종 높은 분산과 불안정성에 시달리며, 이를 분석하고 개선하는 것은 활발히 연구되고 있는 분야입니다. 본 연구에서는 Flow Matching 프레임워크를 기반으로 한 새로운 CT 훈련 접근 방식을 제안합니다. 우리의 주요 기여는 변이 오토인코더(Variational Autoencoder, VAE) 아키텍처에서 영감을 받은 훈련된 잡음 결합 방식입니다. 데이터 종속적인 잡음 방출 모델을 훈련함으로써, 우리의 방법은 간접적으로 잡음과 데이터 매핑의 기하학을 학습할 수 있습니다. 이는 고전적인 CT에서 전방 과정의 선택에 의해 고정되는 것과 대조됩니다. 다양한 이미지 데이터셋을 통한 실험 결과는 상당한 생성적 개선을 보여주며, 우리의 모델은 기준선을 능가하고 CIFAR-10에서 최신 비증류 CT FID를 달성하며, 64x64 해상도에서 ImageNet에서 최신 기술에 준하는 FID를 2단계 생성에서 달성합니다. 우리의 코드는 https://github.com/sony/vct 에서 확인할 수 있습니다.
단안 비디오로부터 동적 장면을 렌더링하는 것은 중요하지만 도전적인 작업입니다. 최근에는 변형 가능한 가우시안 스플래팅이 실제 세계의 동적 장면을 효과적으로 표현하는 강력한 해결책으로 등장했습니다. 그러나 이는 종종 매우 중복되는 가우시안을 유발하여 각 훈련 뷰를 다양한 시간 단계에서 맞추려고 하기 때문에 렌더링 속도가 느려지는 문제가 있습니다. 게다가 정적 영역의 가우시안 속성은 시간에 불변하므로 모든 가우시안을 모델링할 필요가 없으며, 이는 정적 영역에서 떨림을 유발할 수 있습니다. 실제로 동적 장면의 렌더링 속도에서 주요 병목 현상은 가우시안의 수입니다. 이에 대응하여 우리는 효율적인 동적 가우시안 스플래팅(EDGS)을 소개합니다. 이는 희소한 시간 변화 속성 모델링을 통해 동적 장면을 표현합니다. 우리의 방법은 움직임 흐름을 밀도 있는 가우시안의 고전적 커널 표현을 통해 계산하는 희소 앵커-그리드 표현을 사용하여 동적 장면을 공식화합니다. 더 나아가, 정적 영역에 해당하는 앵커를 효율적으로 걸러내기 위한 비지도 학습 전략을 제안합니다. 변형 가능한 객체와 관련된 앵커만 MLP에 입력하여 시간 변화 속성을 쿼리합니다. 두 실제 데이터셋에서의 실험 결과는 이전 최첨단 기법과 비교하여 우리의 EDGS가 렌더링 속도를 크게 향상시키고 우수한 렌더링 품질을 제공함을 보여줍니다.