번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 강화 학습(RL)에서 훈련 안정성은 여전히 핵심적인 과제로 남아 있습니다. 정책 부실화, 비동기적 훈련, 그리고 훈련과 추론 엔진 간의 불일치는 모두 행동 정책이 현재 정책에서 이탈하게 하여 훈련 붕괴의 위험을 초래합니다. 중요도 샘플링은 이러한 분포 변화에 대한 원리적인 보정을 제공하지만 높은 분산 문제가 있으며, 토큰 수준 클리핑이나 시퀀스 수준 정규화와 같은 기존 해결책은 통합된 이론적 기반이 부족합니다. 본 연구에서는 Variational sEquence-level Soft Policy Optimization (VESPO)을 제안합니다. 분산 감소를 제안 분포에 대한 변분 형식화에 통합함으로써, VESPO는 길이 정규화 없이 시퀀스 수준 중요도 가중치에 직접 작용하는 폐쇄형 재형성 커널을 도출합니다. 수학적 추론 벤치마크 실험 결과, VESPO는 최대 64배의 부실화 비율과 완전한 비동기 실행 환경에서도 안정적인 훈련을 유지하며, 조밀 모델과 Mixture-of-Experts 모델 모두에서 일관된 성능 향상을 보여줍니다. 코드는 https://github.com/FloyedShen/VESPO에서 확인할 수 있습니다.
대규모 추론 모델(LRM)의 최근 발전은 긴 사고 연쇄(CoT)를 통해 복잡한 추론 과제에서의 성능을 크게 향상시켰습니다. 그러나 이러한 접근법은 상당한 중복성을 초래하여 계산 효율성을 저해하고 실시간 애플리케이션에서 심각한 지연을 유발하는 경우가 많습니다. 최근 연구에 따르면 긴 추론 사슬이 정확도와 종종 무관할 뿐만 아니라 오히려 정확도를 해칠 수 있는 것으로 나타났습니다. 이러한 현상을 보다 심층적으로 분석한 결과, 우리는 놀랍게도 LRM이 생각을 멈출 적절한 시기를 암묵적으로 알고 있으나, 이 능력이 현재의 샘플링 패러다임에 의해 가려져 있음을 실증적으로 확인했습니다. 이에 고무되어, 우리는 이러한 효율적인 추론 잠재력을 해방하는 새로운 샘플링 패러다임인 SAGE(자기 인식 기반 효율적 추론)를 제안합니다. 더 나아가 SAGE를 그룹 기반 강화 학습(SAGE-RL)에 혼합 샘플링으로 통합하면 SAGE-RL이 SAGE가 발견한 효율적인 추론 패턴을 표준 pass@1 추론에 효과적으로 접목하여 여러 도전적인 수학 벤치마크에서 LRM의 추론 정확도와 효율성을 현저히 향상시킬 수 있습니다.
확장 현실(XR)은 사용자의 추적된 실세계 동작에 반응하는 생성 모델을 요구하지만, 현재의 비디오 월드 모델은 텍스트나 키보드 입력과 같은 단순한 제어 신호만을 수용하여 구체화된 상호작용의 유용성을 제한하고 있습니다. 본 연구에서는 추적된 머리 포즈와 관절 수준의 손 포즈를 모두 조건으로 하는 인간 중심 비디오 월드 모델을 소개합니다. 이를 위해 기존의 디퓨전 트랜스포머 조건화 전략을 평가하고, 정교한 손-객체 상호작용을 가능하게 하는 3D 머리 및 손 제어 메커니즘을 제안합니다. 해당 전략을 사용하여 양방향 비디오 디퓨전 모델 교사를 훈련시키고, 이를 인과적이며 상호작용적인 시스템으로 전수하여 에고센트릭 가상 환경을 생성합니다. 생성된 현실 시스템을 인간 참가자로 평가한 결과, 관련 베이스라인 대비 향상된 작업 수행 능력과 수행된 행동에 대한 인지된 제어 수준이 유의미하게 높음을 입증했습니다.
시각적 유사성 학습은 텍스트 설명이 아닌 시범을 통해 이미지 조작을 가능하게 하여, 사용자가 언어로 표현하기 어려운 복잡한 변환을 지정할 수 있도록 합니다. 삼중항 {a, a', b}가 주어졌을 때, 목표는 a : a' :: b : b' 관계를 만족하는 b'를 생성하는 것입니다. 최근 방법론들은 단일 저순위 적응(LoRA) 모듈을 사용하여 텍스트-이미지 모델을 이 작업에 적용하지만, 고정된 적응 모듈 내에서 다양한 시각적 변환 공간을 포착하려는 시도는 일반화 능력을 제한하는 근본적인 한계에 직면합니다. 제한된 영역에서의 LoRA가 의미 있는 보간 가능한 의미 공간을 형성한다는 최근 연구에 영감을 받아, 우리는 추론 시점에 학습된 변환 기본 요소의 동적 구성을 통해 각 유사성 작업에 맞게 모델을 특화하는 새로운 접근법인 LoRWeB를 제안합니다. 즉, "LoRA들의 공간"에서 한 점을 선택하는 것입니다. 우리는 두 가지 핵심 구성 요소를 도입합니다: (1) 다양한 시각적 변환 공간을 포괄하기 위한 학습 가능한 LoRA 모듈 기저, 그리고 (2) 입력 유사성 쌍을 기반으로 이러한 기저 LoRA를 동적으로 선택하고 가중치를 부여하는 경량 인코더. 포괄적인 평가를 통해 우리의 접근법이 최첨단 성능을 달성하고 보이지 않는 시각적 변환에 대한 일반화를 크게 향상시킴을 입증합니다. 우리의 연구 결과는 LoRA 기저 분해가 유연한 시각적 조작을 위한 유망한 방향임을 시사합니다. 코드와 데이터는 https://research.nvidia.com/labs/par/lorweb에서 확인할 수 있습니다.
디코딩은 언어 모델과 이를 활용한 모든 작업 사이에 위치하지만, 여전히 경험적인 하이퍼파라미터 조정 작업으로 취급됩니다. 우리는 디코딩이 원칙 기반 최적화 계층으로 이해되어야 한다고 주장합니다. 각 토큰 단계에서 우리는 모델 점수와 구조적 선호도 및 제약 조건 사이의 균형을 맞추는, 확률 심플렉스(probability simplex) 상의 정규화된 문제를 해결합니다. 이 단일 템플릿은 탐욕 디코딩(greedy decoding), Softmax 샘플링, Top-K, Top-P, 그리고 Sparsemax 방식의 희소성(sparsity)을 특수 사례로 복원하며, 최적성 조건을 통해 이들의 공통 구조를 설명합니다. 더 중요한 것은, 이 프레임워크를 통해 통설(folklore)에 의존하지 않고 새로운 디코더를 쉽게 설계할 수 있다는 점입니다. 우리는 이를 다중 샘플 파이프라인(자기 일관성, 재순위 지정, 검증기 선택)을 목표로 KL 발산에 기반한 coverage 목적 함수인 Best-of-K(BoK)를 설계하여 입증합니다. BoK는 고정된 K-샘플 예산 내에서 우수한 대안을 포함할 확률을 목표로 하며 경험적 성능을 향상시킵니다. 우리는 이러한 샘플이 예를 들어, 높은 샘플링 temperature에서 MATH500에 대한 Qwen2.5-Math-7B의 정확도를 +18.6%까지 향상시킬 수 있음을 보여줍니다.
사람은 자기 중심적 시각을 통해 복잡한 환경에서 물체를 재배치할 수 있으며, 전역 좌표계 없이도 가려진 부분을 탐색합니다. 이러한 능력에서 영감을 얻어, 우리는 단일 자기 중심 카메라를 사용한 이동 로봇의 장기간 다중 객체 비 파지 재배치 문제를 연구합니다. 우리는 동적인 장면에서 자주 실패하는 명시적 전역 상태 추정에 의존하지 않고 자기 중심적이고 인식 주도의 재배치를 가능하게 하는 정책 학습 프레임워크인 EgoPush를 제안합니다. EgoPush는 객체의 절대적 자세보다는 객체 간 상대적 공간 관계를 인코딩하기 위해 객체 중심 잠재 공간을 설계합니다. 이 설계는 권위적 강화 학습 교사가 희소 키포인트로부터 잠재 상태와 이동 동작을 공동 학습한 후, 이를 순수 시각적 학생 정책으로 증류할 수 있게 합니다. 전지전능한 교사와 부분적 관측만 가능한 학생 간의 감독 격차를 줄이기 위해, 우리는 교사의 관측을 시각적으로 접근 가능한 단서로 제한합니다. 이는 학생의 시점에서 복구 가능한 능동적 인식 행동을 유도합니다. 장기간 신용 할당 문제를 해결하기 위해, 우리는 시간에 따라 감쇠하는 단계별 완료 보상을 사용하여 재배치 작업을 단계 수준의 하위 문제로 분해합니다. 대규모 시뮬레이션 실험을 통해 EgoPush가 성공률 측면에서 종단간 강화 학습 기준선을 크게 능가함을 입증하며, 각 설계 선택의 타당성을 검증하는 모듈별 연구를 수행했습니다. 또한 실제 환경의 이동 플랫폼에서 제로샷 시뮬레이션-투-리얼 전이를 추가로 입증합니다. 코드와 동영상은 https://ai4ce.github.io/EgoPush/에서 확인할 수 있습니다.
구현된 에이전트가 VR, 원격 현신, 디지털 휴먼 애플리케이션의 핵심이 됨에 따라, 그들의 동작은 음성에 맞춘 제스처를 넘어서야 합니다: 에이전트는 사용자를 향해 돌아야 하며, 그들의 움직임에 반응하고, 자연스러운 시선을 유지해야 합니다. 기존 방법론은 이러한 공간 인식 능력이 부족합니다. 우리는 이 격차를 해소하기 위해 스트리밍 VR 헤드셋에 배포 가능한, 공간 인식 대화형 동작을 위한 최초의 실시간 완전 인과적 방법을 제안합니다. 사용자의 위치와 양자 간 오디오를 입력으로 하여, 우리의 접근 방식은 음성과 제스처를 정렬하면서 사용자에 따라 에이전트의 방향을 조정하는 전신 동작을 생성합니다. 우리의 아키텍처는 스트리밍 추론을 위한 인터리빙된 잠재 토큰을 가진 인과적 트랜스포머 기반 VAE와 사용자 궤적 및 오디오에 조건화된 플로우 매칭 모델을 결합합니다. 다양한 시선 선호도를 지원하기 위해, 우리는 학습과 제어를 분리하기 위해 분류자 없는 지도와 함께 시선 점수 메커니즘을 도입합니다: 모델은 데이터로부터 자연스러운 공간 정렬을 포착하는 동시에, 사용자는 추론 시간에 눈맞춤 강도를 조정할 수 있습니다. Embody 3D 데이터셋에서 우리의 방법은 300 FPS 이상의 최첨단 동작 품질을 달성하며(비인과적 기준선보다 3배 빠름), 자연스러운 대화의 미세한 공간 역동성을 포착합니다. 우리는 실시간 VR 시스템에서 우리의 접근 방식을 검증하며, 공간 인식 대화형 에이전트를 실시간 배포에 한 걸음 더 가까이 했습니다. 자세한 내용은 https://evonneng.github.io/sarah/ 를 참조하십시오.
계산 및 메모리 예산이 제한적인 산업용 NLP의 핵심은 여전히 컴팩트한 사전 학습 양방향 인코더가 차지하고 있다. 그 효과는 BERT 스타일 아키텍처에서 널리 채택된 것처럼, 셀프 어텐션이 시퀀스 수준 병렬 처리로 고품질의 양방향 문맥화를 제공하는 능력에서 비롯된다. 최근에는 자동 회귀적이며 어텐션을 사용하지 않는 대안으로 Avey가 소개되었으며, 이는 자연스럽게 인코더 전용 적응을 허용한다. 본 논문에서는 Avey를 인코더 전용 패러다임에 맞게 재구성하고, 분리된 정적 및 동적 매개변수화, 안정성 중심 정규화, 신경망 압축 등 여러 아키텍처 개선을 제안한다. 실험 결과, 이렇게 재구성된 아키텍처는 널리 사용되는 4개의 Transformer 기반 인코더와 비교하여 표준 토큰 분류 및 정보 검색 벤치마크에서 지속적으로 우수한 성능을 보였으며, 긴 문맥으로 확장 시 더 효율적인 규모 확장성을 나타냈다.
검증 가능한 보상 강화 학습(RLVR)이 대규모 멀티모달 모델(LMM)의 시각적 성찰 및 추론 능력 향상에 효과적인 것으로 입증되었습니다. 그러나 기존 데이터셋은 소규모 수동 구축이나 기존 자원의 재조합에 의존하는 경우가 대부분이어서 데이터 다양성과 범위가 제한되며, 이로 인해 모델 성능 향상에 한계가 있습니다. 이를 위해 본 연구에서는 다양한 K12 수학 주제, 광범위한 지식 포인트, 풍부한 시각적 요소를 포함하는 RLVR 학습용 포괄적 데이터셋인 DeepVision-103K를 소개합니다. DeepVision으로 학습된 모델은 멀티모달 수학 벤치마크에서 강력한 성능을 보이며, 일반 멀티모달 추론 과제에도 효과적으로 일반화됩니다. 심층 분석 결과, 학습된 모델에서 시각적 인지, 성찰 및 추론 능력이 향상되어 멀티모달 추론 발전을 위한 DeepVision의 효과성이 입증되었습니다. 데이터: https://huggingface.co/datasets/skylenage/DeepVision-103K{해당 URL}.
기존 온라인 비디오 분할 모델은 일반적으로 프레임별 분할기와 복잡한 전용 추적 모듈을 결합합니다. 이러한 모듈은 효과적이지만 상당한 구조적 복잡성과 계산 부하를 초래합니다. 최근 연구에 따르면, 충분한 용량과 대규모 사전 학습으로 확장된 일반 Vision Transformer(ViT) 인코더는 특수 모듈 없이도 정확한 이미지 분할이 가능합니다. 이러한 관찰에 영감을 받아, 본 연구에서는 전용 추적 모듈이 필요 없는 간단한 인코더 전용 비디오 분할 모델인 VidEoMT(Video Encoder-only Mask Transformer)를 제안합니다. 인코더 전용 ViT에서 시간적 모델링을 가능하게 하기 위해 VidEoMT는 이전 프레임의 쿼리를 재사용하여 프레임 간 정보를 전달하는 경량 쿼리 전파 메커니즘을 도입합니다. 이를 새로운 콘텐츠에 대한 적응성과 균형 있게 조화시키기 위해, 전파된 쿼리와 시간에 독립적인 학습된 쿼리 세트를 결합하는 쿼리 융합 전략을 사용합니다. 그 결과 VidEoMT는 추가적인 복잡성 없이 추적기의 이점을 얻으며, ViT-L 백본으로 최대 160 FPS의 속도(기존 대비 5~10배 빠름)로 실행되는 동시에 경쟁력 있는 정확도를 달성합니다. 코드: https://www.tue-mps.org/videomt/
우리는 단안 비디오로부터의 4D 복원을 위한 통합 피드포워드 프레임워크인 4RC를 제안한다. 일반적으로 운동을 기하학적으로 분리하거나 희소 궤적 또는 양안 장면 흐름과 같은 제한된 4D 속성만을 생성하는 기존 접근법과 달리, 4RC는 조밀한 장면 기하학과 운동 역학을 함께 포착하는 전체론적 4D 표현을 학습한다. 4RC의 핵심은 새로운 encode-once, query-anywhere 및 anytime 패러다임을 도입한 것이다: 트랜스포머 백본이 전체 비디오를 컴팩트한 시공간 잠재 공간으로 인코딩하면, 조건부 디코더가 임의의 대상 타임스탬프에서 임의의 쿼리 프레임에 대한 3D 기하학 및 운동 정보를 효율적으로 질의할 수 있다. 학습을 용이하게 하기 위해, 우리는 단일 시점 4D 속성을 기본 기하학과 시간 의존적 상대 운동으로 분해하여 최소하게 인수분해된 형태로 표현한다. 광범위한 실험을 통해 4RC가 다양한 4D 복원 작업에서 기존 및 동시대 방법들을 능가함을 입증한다.
강화 학습은 시뮬레이션 캐릭터의 다양한 동작을 재현할 수 있는 제어 정책을 학습하기 위한 프레임워크를 제공합니다. 그러나 이러한 정책은 종종 인간이나 물리적 로봇이 구현할 수 없는 비정상적인 고주파 신호를 활용하여 실제 세계의 행동을 제대로 표현하지 못하는 경우가 많습니다. 기존 연구에서는 시간에 따른 행동 변화가 클 경우 패널티를 부과하는 보상 항목을 추가하여 이 문제를 해결합니다. 이러한 항목은 종종 상당한 튜닝 노력이 필요합니다. 우리는 자동 미분을 통해 시뮬레이션 상태 변화에 대한 행동 변화를 직접적으로 패널티로 부과하는 액션 야코비안 패널티 사용을 제안합니다. 이는 작업별 튜닝 없이도 비현실적인 고주파 제어 신호를 효과적으로 제거합니다. 액션 야코비안 패널티는 효과적이지만, 기존의 완전 연결 신경망 아키텍처와 함께 사용할 경우 상당한 계산 오버헤드를 발생시킵니다. 이를 완화하기 위해, 우리는 학습 중 액션 야코비안 패널티 계산에 따른 계산 부담을 크게 줄이는 선형 정책 네트워크(LPN)라는 새로운 아키텍처를 소개합니다. 또한 LPN은 매개변수 튜닝이 필요 없으며, 기준 방법론에 비해 더 빠른 학습 수렴을 보여주고, 추론 시 완전 연결 신경망보다 더 효율적으로 실행될 수 있습니다. 우리는 선형 정책 네트워크가 액션 야코비안 패널티와 결합되었을 때, 백플립과 같은 역동적인 동작 및 다양한 파쿠르 기술을 포함한 서로 다른 특성을 가진 여러 모션 모방 작업을 해결하면서 부드러운 신호를 생성하는 정책을 학습할 수 있음을 입증합니다. 마지막으로, 우리는 이 접근법을 적용하여 팔이 장착된 물리적 사족 보행 로봇에서 역동적인 동작을 위한 정책을 생성합니다.
확산 언어 모델(DLM)은 반복적인 노이즈 제거 과정으로 인해 높은 추론 비용이 발생하므로 효율적인 프루닝(가지치기)이 필요합니다. 기존의 프루닝 휴리스틱은 주로 자기회귀(AR) LLM에서 상속된 것으로, 일반적으로 AR 모델에서 안정적인 전역 기준점 역할을 하는 어텐션 싱크 토큰을 보존합니다. 본 연구에서는 이러한 가정이 DLM에는 적용되지 않음을 보여줍니다: DLM에서 어텐션 싱크 위치는 전체 생성 궤적에 걸쳐 상당히 높은 분산을 보이며(지배적인 싱크 위치가 타임스텝에 따라 어떻게 이동하는지로 측정), 이는 싱크가 종종 일시적이며 AR 모델보다 구조적으로 덜 필수적임을 시사합니다. 이러한 관찰을 바탕으로, 우리는 {bf 싱크 인식 프루닝}을 제안합니다. 이 방법은 DLM에서 불안정한 싱크를 자동으로 식별하고 제거합니다(기존 연구는 일반적으로 AR LLM을 위해 싱크를 유지함). 재학습 없이도 우리의 방법은 더 나은 품질-효율성 트레이드오프를 달성하고, 동일한 계산량 조건에서 강력한 기존 프루닝 베이스라인을 능가합니다. 우리의 코드는 https://github.com/VILA-Lab/Sink-Aware-Pruning에서 확인할 수 있습니다.
대규모 시각 언어 모델(LVLM)은 놀라운 발전을 이루었으나, 시각적 증거에 의존하지 않고 답변을 생성하는 언어 편향 문제를 자주 겪습니다. 기존 연구에서는 디코딩 전략, 구조적 수정, 또는 선별된 지시 데이터를 통해 이 문제를 완화하려 시도했지만, 일반적으로 개별 훈련 샘플이나 토큰이 실제로 이미지로부터 얼마나 혜택을 받는지에 대한 정량적 측정이 부족했습니다. 본 연구에서는 시각적 입력이 제공하는 예측 불확실성 감소를 측정하는 perplexity 기반 지표인 시각 정보 이득(VIG)을 제안합니다. VIG는 샘플 및 토큰 수준에서 세분화된 분석을 가능하게 하여 색상, 공간 관계, 속성과 같은 시각적으로 근거 있는 요소를 효과적으로 부각합니다. 이를 활용하여 높은 VIG 값을 보이는 샘플과 토큰을 우선시하는 VIG 기반 선택적 훈련 방식을 제안합니다. 이 접근법은 시각적으로 정보성이 높은 샘플과 토큰에만 집중함으로써 시각적 근거 강화 및 언어 편향 완화를 달성하고, 감독 데이터를 크게 줄이면서도 우수한 성능을 얻습니다.
도구 통합이 가능한 대규모 언어 모델(LLM) 기반 대화 에이전트는 고정된 작업 지향 대화 데이터셋에서 강력한 성능을 보이지만, 사용자에 의해 발생하는 예상치 못한 오류에 취약합니다. 본 연구는 오류 예방보다는 오류 복구에 주목하며, 이는 오류가 발생한 대화 맥락의 정확한 진단과 적절한 복구 계획의 실행을 필요로 합니다. 상당한 비용과 시간이 소요되는 모델 미세 조정이나 프롬프트 수정을 현실적 제약으로 배제한 상황에서, 우리는 에이전트가 맥락적으로 결함이 있는 상호작용으로부터 복구할 수 있는지, 그리고 모델 매개변수와 프롬프트를 변경하지 않고 에이전트의 행동을 어떻게 적응시킬 수 있는지 탐구합니다. 이를 위해 우리는 테스트 타임 개입 방법인 Reasoning Inception(ReIn)을 제안합니다. ReIn은 에이전트의 의사 결정 과정에 초기 추론을 주입합니다. 구체적으로, 외부 인셉션 모듈이 대화 맥락 내에서 사전 정의된 오류를 식별하고 복구 계획을 생성한 후, 이를 에이전트의 내부 추론 과정에 통합하여 매개변수나 시스템 프롬프트를 수정하지 않고도 수정 조치를 안내합니다. 우리는 사용자 목표 성공적 완료를 직접적으로 방해하는 대화 실패 시나리오(사용자의 모호한 요청과 지원되지 않는 요청)를 체계적으로 시뮬레이션하여 ReIn을 평가합니다. 다양한 에이전트 모델과 인셉션 모듈 조합에서 ReIn은 작업 성공률을 크게 향상시키며 보지 못한 오류 유형으로도 일반화됩니다. 또한, 이 방법은 명시적 프롬프트 수정 접근법을 지속적으로 능가하여 효율적인 실시간 방법으로서의 유용성을 부각합니다. 특히 명령 계층 구조와 관련된 운영 메커니즘에 대한 심층 분석은, ReIn과 함께 복구 도구를 공동으로 정의하는 것이 백본 모델이나 시스템 프롬프트를 수정하지 않고도 대화 에이전트의 회복 탄력성을 향상시키는 안전하고 효과적인 전략이 될 수 있음을 시사합니다.
효율적인 확률적 최적화는 일반적으로 결정론적 영역에서 우수한 성능을 보이는 업데이트 방향과 확률적 섭동에 적응하는 메커니즘을 통합합니다. Adam은 적응적 모멘트 추정을 사용하여 안정성을 높이는 반면, Muon은 직교화 모멘트를 통해 가중치 계층의 행렬 구조를 활용하여 대규모 언어 모델 학습에서 우수한 성능을 보여줍니다. 우리는 새로운 옵티마이저 NAMO와 그의 대각 확장 버전인 NAMO-D를 제안하며, 이는 직교화 모멘트와 노름 기반 Adam형 노이즈 적응을 최초로 원리적으로 통합합니다. NAMO는 단일 적응 스텝 사이즈를 사용하여 직교화 모멘트의 크기를 조정함으로써 직교성을 유지하면서 Muon 대비 극히 적은 추가 비용으로 성능을 향상시킵니다. 반면 NAMO-D는 직교화 모멘트에 클램핑된 항목을 가진 대각 행렬을 우측 곱합니다. 이 설계는 뉴런 단위의 노이즈 적응을 가능하게 하며 일반적인 근사 블록 대각 헤시안 구조와 일치합니다. 표준 가정 하에서 우리는 두 알고리즘의 결정론적 설정에서의 최적 수렴 속도를 입증하고, 확률적 설정에서 이들의 수렴 보장이 확률적 그래디언트의 노이즈 수준에 적응함을 보입니다. GPT-2 모델 사전 학습 실험을 통해 NAMO와 NAMO-D가 AdamW 및 Muon 기준선 대비 향상된 성능을 보여주었으며, NAMO-D는 조건이 좋은 업데이트 방향 유지와 세분화된 노이즈 적응 활용이라는 상충되는 목표 사이의 균형을 잡는 추가 클램핑 하이퍼파라미터를 통해 NAMO 대비 추가적인 성능 향상을 달성했습니다.
대규모 언어 모델의 평가 및 정렬 파이프라인은 자연어 루브릭에 의해 행동이 지도되고 벤치마크를 통해 검증되는 LLM 기반 판단 모델에 점점 더 의존하고 있습니다. 본 연구는 이러한 워크플로우에서 이전까지 충분히 인식되지 않았던 취약점을 규명하며, 이를 '루브릭 유발 선호도 편향(RIPD)'이라고 명명합니다. 루브릭 수정이 벤치마크 검증을 통과하더라도, 여전히 대상 도메인에서 판단 모델의 선호도에 체계적이고 방향성을 가진 변화를 초래할 수 있습니다. 루브릭은 높은 수준의 결정 인터페이스 역할을 하기 때문에, 이러한 편향은 겉보기에는 자연스럽고 기준을 보존하는 수정에서도 발생할 수 있으며, 집계된 벤치마크 지표나 제한된 부분 검토를 통해 탐지하기 어려울 수 있습니다. 우리는 더 나아가 이 취약점이 루브릭 기반 선호도 공격을 통해 악용될 수 있음을 보여줍니다. 이러한 공격에서는 벤치마크 기준을 충족하는 루브릭 수정이 대상 도메인에서 고정된 인간 또는 신뢰할 수 있는 기준으로부터 판단을 이탈하게 하여 체계적으로 RIPD를 유발하고, 대상 도메인 정확도를 도움성(helpfulness) 최대 9.5%, 무해성(harmlessness) 최대 27.9%까지 감소시켰습니다. 이러한 판단이 하류 단계의 사후 훈련을 위한 선호도 레이블 생성에 사용될 때, 유발된 편향은 정렬 파이프라인을 통해 전파되어 훈련된 정책에 내재화됩니다. 이는 모델 행동에 지속적이고 체계적인 편향을 초래합니다. 전반적으로, 우리의 연구 결과는 평가 루브릭이 민감하고 조작 가능한 제어 인터페이스임을 강조하며, 평가자 신뢰도 이상의 시스템 수준 정렬 위험을 드러냅니다. 코드는 https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface 에서 확인할 수 있습니다. 경고: 특정 섹션에는 모든 독자에게 적합하지 않을 수 있는 잠재적으로 유해한 내용이 포함될 수 있습니다.
잠재적 집단 수준 특성에 대한 불확실성을 설문 및 기타 집단 평가를 통해 줄이기 위한 정보 도출은 실제 비용과 결측 데이터 상황에서 제한된 질문 노력을 할당해야 합니다. 대규모 언어 모델은 자연어 기반 적응형 다중 회상 상호작용을 가능하게 하지만, 기존 대부분의 도출 방법은 고정된 응답자 풀을 대상으로 질문 내용만 최적화하며, 응답이 부분적이거나 불완전할 때 응답자 선택을 적응하거나 인구 구조를 활용하지 않습니다. 이러한 격차를 해결하기 위해 우리는 에이전트가 명시적 질의 및 참여 예산 하에서 질문과 응답자를 모두 적응적으로 선택하는 다중 라운드 설정인 적응형 집단 도출을 연구합니다. 우리는 (i) 후보 질문 평가를 위한 LLM 기반 예상 정보 획득 목적 함수와 (ii) 관찰된 응답과 참가자 속성을 집계하여 결측 응답을 추정하고 라운드별 응답자 선택을 안내하는 이종 그래프 신경망 전파를 결합한 이론적 근거가 있는 프레임워크를 제안합니다. 이 폐쇄형 절차는 구조적 유사성을 통해 집단 수준 응답을 추론하면서 소수이지만 정보성이 높은 개인들의 부분집합을 질의합니다. 세 가지 실제 여론 데이터셋에서 우리의 방법은 제한된 예산 하에서 집단 수준 응답 예측을 지속적으로 개선했으며, 특히 10% 응답자 예산에서 CES에 대해 12% 이상의 상대적 향상을 달성했습니다.