번역이 포함된 일일 선별된 AI 연구 논문
지도 미세 조정(Supervised fine-tuning, SFT)은 대규모 언어 모델(Large Language Models, LLMs)을 특정 도메인이나 작업에 적응시키는 데 중요한 역할을 합니다. 그러나 경험적 실험에서 나타난 바와 같이, 실제 응용 프로그램에서 수집된 데이터에는 불가피하게 잡음이 포함되어 있어 이는 하류 작업에서 모델 성능에 상당한 어려움을 일으킵니다. 따라서 하류 작업에서 모델 능력을 향상시키기 위해 잡음에 강건한 SFT 프레임워크가 긴요합니다. 이러한 도전에 대처하기 위해, 우리는 하류 작업 데이터에서 잡음 탐지와 재레이블링을 수행하는 강건한 SFT 프레임워크(RobustFT)를 소개합니다. 잡음 식별을 위해 우리의 방법론은 추론 강화 모델을 활용한 다중 전문가 협업 시스템을 채택하여 우수한 잡음 탐지를 달성합니다. 소음 제거 단계에서는 가장 관련성이 높고 확신이 있는 지식을 통합한 문맥 강화 전략을 활용하고, 신뢰할 수 있는 주석을 생성하기 위해 신중한 평가를 수행합니다. 더불어, 반응 엔트로피를 기반으로 한 효과적인 데이터 선택 메커니즘을 소개하여 미세 조정을 위해 고품질 샘플만 유지되도록 합니다. 다섯 개의 데이터셋에서 수행된 다양한 실험은 RobustFT가 소음이 있는 시나리오에서 우수한 성능을 보여주는 것을 입증합니다.
복잡한 추론 작업에 대한 방대한 인간 주석 데이터가 없는 경우, 자가 향상 - 모델이 자체 출력에 대해 훈련되는 방식 -이 성능을 향상시키는 주요 방법으로 등장했습니다. 그러나 이 반복적인 자가 향상 방법의 메커니즘을 지탱하는 중요한 요소들은 여전히 잘 이해되지 않고 있습니다. 자가 향상이 어떤 조건에서 효과적인지, 그리고 현재의 반복에서 병목 현상이 무엇인지와 같은 문제입니다. 본 연구에서는 이 반복적 과정에서 두 가지 중요한 요소를 모니터링하고 제안하는 방법을 식별합니다: (1) 모델이 충분히 다양한 응답을 생성할 수 있는 능력(탐험); 그리고 (2) 외부 보상이 높은 품질의 후보자와 낮은 품질의 후보자를 구별하는 데 효과적인지(이용). 수학적 추론을 사례 연구로 삼아, 우리는 탐험과 이용의 동역학을 추적하는 양적 분석을 시작하여, 모델의 탐험 능력이 반복을 거듭할수록 신속하게 약화되고, 외부 보상을 활용하는 효과도 줄어든다는 것을 발견했습니다. 이러한 발견을 바탕으로, 우리는 B-STaR을 소개합니다. 이는 현재 정책 모델과 사용 가능한 보상에 기초하여 탐험과 이용을 균형있게 조정하는 자가 학습 추론 프레임워크로, 이를 통해 자가 향상 효과를 최적화합니다. 수학적 추론, 코딩 및 상식적 추론에 대한 실험 결과는, B-STaR이 훈련 과정 전반에 걸쳐 모델의 탐험 능력을 향상시키는데 그치지 않고, 탐험과 이용 사이의 더 효과적인 균형을 이루어 우수한 성능을 달성한다는 것을 입증합니다.
추론 능력은 대규모 다중모달 모델(LMMs)에 있어서 필수적입니다. 다중모달 사고 연쇄를 주석 처리한 데이터가 없는 경우, 모델이 자체 출력물에서 학습하는 자기진화 훈련이 추론 능력을 향상시키는 효과적이고 확장 가능한 방법으로 등장했습니다. 증가하는 사용량에도 불구하고, 특히 다중모달 추론 맥락에서의 자기진화 훈련에 대한 포괄적인 이해는 제한적입니다. 본 논문에서는 다중모달 추론을 위한 자기진화 훈련의 복잡성에 대해 탐구하며, 훈련 방법, 보상 모델 및 프롬프트 변형이라는 세 가지 핵심 요소를 강조합니다. 우리는 각 요소를 체계적으로 조사하고 다양한 설정이 훈련의 효과에 어떻게 영향을 미치는지 탐구합니다. 우리의 분석은 각 요소에 대한 최적의 실천 방법을 도출하며, 다중모달 추론을 최적화하기 위한 목적을 가지고 있습니다. 더불어, 훈련 중의 자기진화 역학과 성능 향상을 위한 자동 균형 매커니즘의 영향을 탐구합니다. 모든 조사를 마친 후, 우리는 다중모달 추론을 위한 자기진화 훈련의 최종 레시피를 제시하며, 이러한 설계 선택 사항을 MSTaR(Multimodal Self-evolving Training for Reasoning)이라는 프레임워크로 포장합니다. 이는 다양한 벤치마크에서 다양한 크기의 모델에 대해 보편적으로 효과적이며, MiniCPM-V-2.5(8B), Phi-3.5-Vision(4B) 및 InternVL2(2B)에서 추가 인간 주석을 사용하지 않고 5개의 다중모달 추론 벤치마크에서 사전 진화된 모델을 크게 능가하는 것을 입증합니다. 우리는 이 연구가 다중모달 추론을 위한 자기진화 훈련에 대한 이해의 중요한 공백을 채우고, 향후 연구를 위한 견고한 프레임워크를 제공한다고 믿습니다. 우리의 정책 및 보상 모델, 그리고 수집된 데이터는 다중모달 추론에서의 추가적인 조사를 촉진하기 위해 공개됩니다.
자기회귀(AR) 모델은 텍스트 및 이미지 생성에서 최첨단 성능을 달성했지만 토큰 단위 처리로 인해 생성 속도가 느립니다. 우리는 야심찬 질문을 제기합니다: 사전 훈련된 AR 모델을 적응하여 단 한 번 또는 두 번의 단계로 출력물을 생성할 수 있을까요? 성공할 경우, 이는 AR 모델의 개발 및 배포를 크게 발전시킬 것입니다. 우리는 기존의 작업들이 한 번에 여러 토큰을 생성하여 AR 생성 속도를 높이려는 시도가 출력물 간의 조건부 의존성으로 인해 출력 분포를 기본적으로 포착할 수 없다는 점을 알아차렸습니다. 이는 몇 단계 생성에 대한 효과를 제한합니다. 이를 해결하기 위해 우리는 Distilled Decoding (DD)을 제안합니다. 이는 흐름 일치를 사용하여 사전 훈련된 AR 모델의 출력 분포로부터 가우시안 분포로의 결정적 매핑을 생성합니다. 그런 다음 이 매핑을 증류시키는 네트워크를 훈련하여 몇 단계 생성을 가능하게 합니다. DD는 원래 AR 모델의 훈련 데이터가 필요하지 않아 더 실용적입니다. 우리는 ImageNet-256에서 최첨단 이미지 AR 모델에 DD를 평가하고 유망한 결과를 제시합니다. VAR의 경우, 10단계 생성이 필요한데 DD는 1단계 생성을 가능하게 합니다(6.3배 속도 향상), FID가 4.19에서 9.96으로 상당한 증가가 있습니다. LlamaGen의 경우, DD는 256단계 생성을 1단계로 줄여 217.8배 속도 향상을 달성하며 FID가 4.11에서 11.35로 비슷한 증가가 있습니다. 두 경우 모두 기준선 방법은 FID가 100을 초과하여 완전히 실패합니다. DD는 텍스트에서 이미지 생성에도 뛰어나며, LlamaGen의 경우 256단계 생성을 2단계로 줄여 FID가 25.70에서 28.95로 미미한 증가가 있습니다. 이미지 AR 모델의 단일 단계 생성 가능성을 시연한 최초의 작업으로, DD는 AR 모델이 본질적으로 느린 것으로 여겨지는 관념에 도전하며 효율적인 AR 생성을 위한 새로운 기회를 엽니다. 프로젝트 웹사이트는 https://imagination-research.github.io/distilled-decoding에서 확인할 수 있습니다.
o1 모델 시리즈는 대규모 강화 학습을 통해 사고 체인을 사용하여 추론합니다. 이러한 고급 추론 능력은 모델의 안전성과 견고성을 향상시키는 새로운 방법을 제공합니다. 특히, 우리의 모델은 사고적 조정을 통해 잠재적으로 불안전한 프롬프트에 응답할 때 안전 정책에 대해 맥락에서 추론할 수 있습니다. 이는 불법적인 조언 생성, 고정적인 응답 선택, 알려진 탈옥에 빠지는 위험과 같은 특정 위험 벤치마크에서 최첨단 성능을 제공합니다. 답변하기 전에 사고 체인을 통합하는 모델을 훈련하는 것은 상당한 이점을 발휘할 수 있는 가능성을 가지고 있지만, 지능이 높아지면서 발생하는 잠재적 위험도 증가시킬 수 있습니다. 우리의 결과는 견고한 조정 방법을 구축하고, 그 효능을 철저하게 스트레스 테스트하며, 세심한 위험 관리 프로토콜을 유지하는 필요성을 강조합니다. 이 보고서는 OpenAI o1 및 OpenAI o1-mini 모델을 위해 수행된 안전 작업을 개요하며, 안전 평가, 외부 레드팀 평가, 그리고 준비 프레임워크 평가를 포함합니다.
대규모 언어 모델(LLMs)이 중간 추론 단계를 생성하고 주의를 기울여 "더 많이 생각"할 수 있는 기술은 복잡한 문제 해결에 유망함을 입증했습니다. 그러나 표준 접근 방식은 응답하기 바로 전에 이산 토큰의 시퀀스를 생성하므로 상당한 대기 시간 비용이 발생하고 최적화하기 어려울 수 있습니다. 본 연구에서는 얼어붙은 LLM에 오프라인 공변처리 장치를 추가하여 모델의 키-값(kv) 캐시에서 작동할 수 있음을 보여줍니다. 이 공변처리 장치는 잠재적 임베딩 집합을 사용하여 캐시를 보완하고 후속 디코딩의 충실성을 향상시키도록 설계되었습니다. 우리는 이 공변처리 장치를 표준 사전 훈련 데이터의 디코더에서 언어 모델링 손실을 사용하여 훈련하면서 디코더 자체는 얼어두는 방식으로 이를 보여줍니다. 이 접근 방식을 통해 모델이 엔드-투-엔드로 어떻게 추가 계산을 kv-캐시로 증류할지 학습할 수 있습니다. 디코더가 변경되지 않았기 때문에 공변처리 장치는 오프라인 및 비동기적으로 작동할 수 있으며 공변처리 장치를 사용할 수 없거나 특정 캐시가 추가 계산이 필요하지 않다고 판단되는 경우 언어 모델이 정상적으로 작동할 수 있습니다. 실험적으로 캐시가 보완되면 디코더가 다수의 후속 토큰에서 낮은 헷갈림을 달성한다는 것을 보여줍니다. 더욱이 과제별 훈련이 없어도 캐시 보강이 추론 집중적 작업 범위에서 일관되게 헷갈림을 줄이고 성능을 향상시킨다는 것을 실험을 통해 입증합니다.
In-Context Learning (ICL)은 언어 모델이 입력 문맥에서 제공된 예시를 기반으로 예측을 수행하는 기술입니다. 이전에는 문맥 창 크기가 제한으로 작용하여 보여줄 수 있는 예시의 수에 한계가 있었기 때문에, 예시 선택 기술이 매우 중요했습니다. 그러나 최근에 등장한 Long Context Language Models (LCLMs)의 등장으로 문맥에 포함될 수 있는 예시의 수가 크게 증가하면서, 다수의 예시를 다루는 경우에 ICL 성능이 여전히 샘플 선택 방법에 민감한지에 대한 중요한 질문이 제기되었습니다. 이에 대한 답변을 얻기 위해, 우리는 LCLMs의 맥락에서 이러한 접근 방식을 재방문하며 4가지 작업을 포함한 18개 데이터셋에 대한 포괄적인 실험을 통해 이를 조사했습니다. 놀랍게도, 세련된 예시 선택 기술이 간단한 무작위 샘플 선택 방법보다 현저한 향상을 가져오지 않음을 관찰했습니다. 대신, LCLMs의 등장으로 인해 ICL의 과제가 가장 효과적인 예시를 선택하는 것에서 문맥 창을 채우기 위한 충분한 예시를 수집하는 것으로 근본적으로 변화되었음을 발견했습니다. 특히, 특정 데이터셋에서는 모든 가능한 예시를 포함해도 문맥 창을 완전히 활용하지 못하는 것으로 나타났으나, 간단한 데이터 증강 접근 방식을 사용하여 문맥에서 예시를 보강함으로써 ICL 성능을 5% 향상시킬 수 있었습니다.
강력한 비디오 변이 오토인코더(Variational Autoencoder, VAE)를 학습하는 것은 비디오 중복을 줄이고 효율적인 비디오 생성을 용이하게 하는 데 중요합니다. 이미지 VAE를 각각의 프레임에 직접 적용하는 것은 시간적 불일치와 최적의 압축률 부족으로 인해 서브옵티멀한 압축률로 이어질 수 있습니다. 기존의 비디오 VAE는 시간적 압축을 다루기 시작했지만 종종 부족한 재구성 성능을 겪습니다. 본 논문에서는 고품질 비디오 인코딩이 가능한 혁신적이고 강력한 비디오 오토인코더를 제안합니다. 먼저, 이미지 VAE를 3D VAE로 확장하는 것만으로 공간 및 시간 압축을 엮는 것이 움직임 흐림과 세부 왜곡 아티팩트를 도입할 수 있다는 것을 관찰합니다. 따라서 우리는 공간 정보를 더 잘 인코딩하고 디코딩하기 위해 시간 인식적인 공간 압축을 제안합니다. 게다가, 추가적인 시간 압축을 위해 가벼운 움직임 압축 모델을 통합합니다. 둘째, 텍스트-비디오 데이터셋에 내재된 텍스트 정보를 활용하고 모델에 텍스트 가이드를 통합하는 것을 제안합니다. 이는 세부 보존 및 시간적 안정성 측면에서 특히 재구성 품질을 크게 향상시킵니다. 셋째, 이미지와 비디오 모두에 대해 공동으로 훈련하여 모델의 다재다능성을 더욱 향상시킵니다. 이는 재구성 품질을 향상시키는 것뿐만 아니라 이미지 및 비디오 오토인코딩을 가능하게 합니다. 강력한 최근 기준에 대한 포괄적인 평가는 우리 방법의 우수한 성능을 입증합니다. 프로젝트 웹사이트는 다음에서 확인할 수 있습니다: https://yzxing87.github.io/vae/.
최근에는 O1과 유사한 모델들이 대표적인 예시로 등장하여, 수학 및 코딩과 같은 추론 작업에서의 긴 사고 체인의 효과를 보여주었습니다. 본 논문에서는 DRT-o1을 소개하는데, 이는 긴 사고 체인의 성공을 신경 기계 번역(MT)에 적용하려는 시도입니다. 특히 유사성과 은유를 포함할 수 있는 문학 서적을 고려할 때, 이러한 텍스트를 목표 언어로 번역하는 것은 문화적 차이로 인해 매우 어려운 실무적인 문제입니다. 이러한 경우에는 의역이 의도한 의미를 효과적으로 전달하지 못할 수 있습니다. 심지어 전문 번역가들도 번역 과정 전반에서 의미를 보존하는 데 상당한 고민을 해야 합니다. MT에서 LLMs의 긴 사고 능력을 시뮬레이션하기 위해, 먼저 기존 문학 서적에서 유사성이나 은유를 포함하는 문장을 채굴하고, 이후 장문 번역을 통해 이러한 문장을 번역하기 위한 다중 에이전트 프레임워크를 개발합니다. 다중 에이전트 프레임워크에서는 번역가가 조언자가 제공한 제안에 따라 소스 문장을 반복적으로 번역하도록 하고, 긴 사고의 효과를 보장하기 위해 평가자도 사용하여 현재 라운드의 번역이 이전 것보다 나은지 여부를 판단합니다. 이러한 방식으로 수만 건의 장문 MT 데이터를 수집하여 우리의 DRT-o1을 훈련하는 데 사용합니다. 문학 번역에 대한 실험 결과는 DRT-o1의 효과를 입증합니다. Qwen2.5-7B 및 Qwen2.5-14B를 백본으로 사용하여 DRT-o1에 의해 가져온 개선은 7.33~8.26 BLEU 및 1.66~3.36 CometScore를 달성합니다. 또한, DRT-o1-7B는 QwQ-32B-Preview보다 7.82 BLEU 및 1.46 CometScore로 우수성을 나타내며 효과를 입증합니다. 해당 프로젝트는 https://github.com/krystalan/DRT-o1에서 확인할 수 있습니다.
오늘날의 생성형 AI 시스템은 기본적으로 정보를 제시하는 데 초점을 맞추어 사용자를 학습에 도움을 주는 인간 튜터처럼 관여시키는 대신합니다. 이러한 시스템의 다양한 교육 사용 사례를 다루기 위해, 우리는 교육적 행동 주입의 도전을 교육적 지시 후속으로 재구성합니다. 여기서 교육 및 평가 예시에는 후속 모델 변환에서 존재하거나 원하는 특정 교육 특성을 설명하는 시스템 수준의 지시사항이 포함됩니다. 이러한 구성은 우리의 모델을 교육학의 특정 정의에 얽매이지 않도록 하며, 대신 교사나 개발자가 원하는 모델 행동을 지정할 수 있게 합니다. 또한 교육을 위한 Gemini 모델의 개선을 위한 길을 열어줍니다. 이는 교육 이후 혼합물에 교육적 데이터를 추가함으로써 가능하며, 이는 그들의 빠르게 확장되는 능력 집합과 함께 이루어집니다. 두 가지는 초기 기술 보고서와 비교해 중요한 변화를 나타냅니다. 교육적 지시 후속으로 훈련하는 방법이 다양한 학습 시나리오에서 전문가 평가자들에 의해 상당히 선호되는 LearnLM 모델(구글 AI Studio에서 사용 가능)을 생성하는 방법을 보여줍니다. 이 모델은 GPT-4o보다 31%, Claude 3.5보다 11%, Gemini 1.5 Pro 모델 LearnLM을 기반으로 한 것보다 13%의 평균 선호도 강도를 보입니다.
대형 언어 모델은 코드 생성에서 놀라운 능력을 보여주었지만, 심층 알고리즘적 추론이 필요한 복잡한 프로그래밍 작업에서 종종 어려움을 겪습니다. 학습된 보상 모델을 통한 과정 감독은 추론 단계를 안내하는 데 유망하나 비싼 훈련 데이터가 필요하고 신뢰할 수 없는 평가 결과를 보여줍니다. 우리는 결과 정제 프로세스 감독(Outcome-Refining Process Supervision)을 제안합니다. 이는 결과 정제 자체를 감독해야 하는 프로세스로 취급하는 새로운 패러다임입니다. 우리의 프레임워크는 추론 단계의 감독을 뿌리 깊은 실행 신호를 활용하여 이루며, 동시에 여러 해결 경로를 유지하기 위해 트리 구조화된 탐색을 사용합니다. 실험 결과는 우리의 방법이 심지어 작은 모델들이 경쟁적 프로그래밍 작업에서 높은 성공 정확도와 성능 지표를 달성하도록 하는 것을 보여주며, 전통적인 보상 모델보다 더 신뢰할 수 있는 검증을 제공하면서 훈련 PRM이 필요하지 않습니다. 우리의 방법은 5개 모델과 3개 데이터셋 전반에서 상당한 개선을 이루었습니다: 정확도는 평균 26.9% 증가하고 효율성은 42.2% 향상되었습니다. 결과는 구조화된 추론 공간을 구체적인 검증 신호로 제공하는 것이 복잡한 프로그래밍 작업을 해결하는 데 중요하다는 것을 시사합니다. 우리는 모든 코드와 데이터를 다음에서 오픈 소스로 제공합니다: https://github.com/zhuohaoyu/ORPS
대규모 언어 모델(Large Language Models, LLMs)은 과학 분야에서 놀라운 잠재력을 보여주었지만, 한 가지 기본적인 질문이 아직 답이 필요하다: LLMs로 인간 연구 커뮤니티를 시뮬레이션할 수 있을까? 이 질문에 대답함으로써 아이디어 브레인스토밍 과정 뒤에 있는 프로세스를 깊이 있게 이해하고 새로운 과학적 통찰을 자동으로 발견하는 영감을 줄 수 있다. 본 연구에서는 연구 커뮤니티 시뮬레이션을 위한 다중 에이전트 프레임워크인 ResearchTown을 제안한다. 이 프레임워크 내에서 인간 연구 커뮤니티는 에이전트-데이터 그래프로 단순화되어 모델링되며, 연구자와 논문은 각각 에이전트 유형과 데이터 유형 노드로 표현되며 협업 관계에 따라 연결된다. 또한 텍스트 기반 추론 프레임워크인 TextGNN을 소개하며, 연구 활동(예: 논문 읽기, 논문 쓰기, 리뷰 쓰기)을 에이전트-데이터 그래프 상의 통합된 메시지 전달 프로세스의 특수 형태로 모델링한다. 연구 시뮬레이션의 품질을 평가하기 위해 유사성을 기반으로 한 확장 가능하고 객관적인 평가를 위한 노드 마스킹 예측 작업을 사용하는 벤치마크인 ResearchBench를 제시한다. 실험 결과 세 가지 주요 발견을 보여준다: (1) ResearchTown은 논문 쓰기 및 리뷰 쓰기를 포함한 협업 연구 활동을 현실적으로 시뮬레이션할 수 있다; (2) ResearchTown은 다수의 연구자와 다양한 논문으로 견고한 시뮬레이션을 유지할 수 있다; (3) ResearchTown은 새로운 연구 방향을 영감 주는 다학제적 연구 아이디어를 생성할 수 있다.
AI가 당신이 잠을 자는 동안 일을 처리할 수 있는 세상을 상상해보십시오 - 연구 자료를 정리하거나 보고서를 작성하거나 내일 필요한 프레젠테이션을 만들어줍니다. 그러나 현재의 디지털 에이전트는 간단한 작업을 수행할 수는 있지만, 인간이 일상적으로 수행하는 복잡한 실제 작업을 처리할 만큼 능숙하지는 못합니다. 우리는 인간 인지 전이를 통해 이러한 비전으로 나아가는 중요한 한 걸음을 보여주는 AI 시스템인 PC Agent를 제시합니다. 우리의 주요 통찰은 간단한 "작업"을 실행하는 것에서 복잡한 "작업"을 처리하는 것으로의 길이 컴퓨터 사용 중에 인간의 인지 과정을 효율적으로 포착하고 학습하는 데 있음을 내포하고 있습니다. 이 가설을 검증하기 위해 우리는 세 가지 주요 혁신을 소개합니다: (1) 고품질 인간-컴퓨터 상호작용 경로를 완전한 인지 맥락과 함께 효율적으로 수집하는 경량 인프라인 PC Tracker; (2) 원시 상호작용 데이터를 행동 의미론과 사고 과정을 완성함으로써 풍부한 인지 경로로 변환하는 이단계 인지 완성 파이프라인; 그리고 (3) 의사 결정을 위한 계획 에이전트와 견고한 시각적 기반을 위한 기반 에이전트를 결합한 다중 에이전트 시스템. 파워포인트 프레젠테이션 작성에 대한 초기 실험에서, 133개의 인지 경로로 훈련된 PC Agent는 여러 응용 프로그램을 통해 50단계에 걸친 복잡한 작업 시나리오를 처리할 수 있음을 보여주었습니다. 이는 우리의 접근법의 데이터 효율성을 입증하며, 능숙한 디지털 에이전트를 훈련하는 핵심이 인간의 인지 데이터 수집에 있다는 점을 강조합니다. 우리의 완전한 프레임워크, 데이터 수집 인프라 및 인지 완성 방법을 공개함으로써, 연구 커뮤니티가 실제로 능숙한 디지털 에이전트를 개발하는 데 대한 장벽을 낮추고자 합니다.
대형 언어 모델(LLMs)이 에이전트로서 점점 더 많이 배치됨에 따라, 상호 작용 환경 및 도구 사용으로 인한 통합은 모델 자체와 관련된 안전 문제 이상의 새로운 안전 도전 과제를 도입합니다. 그러나 에이전트 안전을 평가하기 위한 포괄적인 벤치마크의 부재는 효과적인 평가와 추가 개선에 상당한 장벽을 제공합니다. 본 논문에서는 LLM 에이전트의 안전을 평가하기 위해 설계된 포괄적인 벤치마크인 Agent-SafetyBench를 소개합니다. Agent-SafetyBench는 349개의 상호 작용 환경과 2,000개의 테스트 케이스를 포함하며, 8가지 안전 위험 범주를 평가하고, 불안전한 상호 작용에서 자주 발생하는 10가지 일반적인 실패 모드를 다룹니다. 16개의 인기 있는 LLM 에이전트를 평가한 결과, 우려스러운 결과가 나타났습니다: 어떤 에이전트도 안전 점수가 60%를 넘지 못했습니다. 이는 LLM 에이전트에서 중요한 안전 도전 과제를 강조하며, 개선이 크게 필요함을 강조합니다. 양적 분석을 통해 우리는 중요한 실패 모드를 식별하고, 현재 LLM 에이전트에서의 두 가지 기본적인 안전 결함을 요약합니다: 견고성 부족과 위험 인식 부족. 더 나아가, 우리의 연구 결과는 방어 프롬프트에만 의존하는 것이 이러한 안전 문제를 해결하는 데 충분하지 않다는 것을 시사하며, 더 진보된 강력한 전략이 필요함을 강조합니다. 우리는 Agent-SafetyBench를 https://github.com/thu-coai/Agent-SafetyBench 에 공개하여 에이전트 안전 평가 및 개선에 대한 추가 연구와 혁신을 촉진합니다.
멀티모달 멀티파티 대화(MMC)는 조금 더 연구되지 않았지만 중요한 주제로, 실제 시나리오에 잘 맞아 널리 사용되는 응용 프로그램을 가지고 있기 때문에 연구가 필요합니다. 전통적인 멀티모달 대화와 비교하면 MMC는 시각적 및 텍스트 컨텍스트에서 많은 상대방이 나타나므로 보다 강력한 캐릭터 중심의 이해 능력이 필요합니다. 본 논문에서는 이 문제의 연구를 촉진하기 위해 24,000개 이상의 고유 발화와 비디오 컨텍스트가 함께 제공되는 Friends-MMC 데이터셋을 제시합니다. 대화의 캐릭터 중심 이해를 탐구하기 위해 각 발화의 화자, 비디오에 나타나는 얼굴의 이름 및 경계 상자도 주석을 달았습니다. Friends-MMC 데이터셋을 기반으로 대화 화자 식별 및 대화 응답 예측이라는 두 가지 기본 MMC 작업을 더 연구했습니다. 이 두 작업은 비디오나 이미지를 시각적 컨텍스트로 가지는 멀티파티 특성을 가지고 있습니다. 대화 화자 식별 작업에서는 사전 훈련된 모델과 같은 기존 방법의 비효율성을 보여주며, 두 모달리티의 컨텍스트를 활용하여 성능을 향상시키기 위해 최적화 솔버를 활용하는 간단하면서 효과적인 기본선 방법을 제안합니다. 대화 응답 예측에서는 Friend-MMC에서 생성 대화 모델을 세밀하게 조정하고 화자 정보의 이점을 분석했습니다. 코드와 데이터셋은 https://github.com/yellow-binary-tree/Friends-MMC에서 공개적으로 이용 가능하며, 대화를 이해할 때 화자 정보 모델링에 더 많은 관심을 촉구합니다.
OpenAI의 최근 Reinforcement Fine-Tuning (RFT) 소개는 추론 기반 모델의 잠재력을 보여주며 단순한 패턴 모방을 넘어 섬세한 조정을 위한 새로운 패러다임을 제시합니다. 본 기술 보고서는 OpenRFT를 소개하며, RFT와 동일한 설정 하에서 도메인별 작업을 위해 일반적인 추론 모델을 섬세하게 조정하려는 우리의 시도를 제시합니다. OpenRFT는 추론 단계 데이터 부족과 교육 샘플의 한정된 양이라는 두 가지 주요 도전에 대응하기 위해 도메인별 샘플을 활용하는 세 가지 방법으로 접근합니다: 질문 증강, 추론 과정 데이터 합성, 그리고 소수의 샷 ICL. 평가는 SciKnowEval에서 수행되었으며, OpenRFT는 각 작업에 대해 단 100개의 도메인별 샘플만 사용하여 주목할만한 성능 향상을 달성했습니다. 추가 실험 결과는 향후 버전에서 지속적으로 업데이트될 예정입니다. 소스 코드, 데이터셋, 그리고 모델은 다음 링크에서 확인할 수 있습니다: https://github.com/ADaM-BJTU/OpenRFT
LLM(Large Language Model)이 인간의 의도와 조화를 이루기 위한 중요한 단계로서, 지시 Fine-Tuning(IFT)은 데이터셋 품질에 높은 수요가 있다. 그러나 기존의 IFT 데이터셋은 종종 LLM의 사전 훈련 단계에서 학습한 내부 지식과 일치하지 않는 지식을 포함하고 있어, IFT의 효과에 큰 영향을 미칠 수 있다. 이 문제를 해결하기 위해, 우리는 NILE(iNternal consIstency aLignmEnt) 프레임워크를 소개하며, 이는 IFT 데이터셋을 최적화하여 LLM의 능력을 더욱 발휘할 수 있도록 하는 것을 목표로 한다. NILE은 목표 사전 훈련된 LLM의 내부 지식을 유도하여 지시 데이터에 해당하는 내부 지식을 활용하여 IFT 데이터셋에서 답변을 수정하는 방식으로 작동한다. 게다가, 우리는 훈련 샘플을 필터링하여 LLM의 내부 지식과 높은 일관성을 보장하는 새로운 내부 일관성 필터링(ICF) 방법을 제안한다. 우리의 실험은 NILE에 맞춘 IFT 데이터셋이 다양한 LLM 능력 평가 데이터셋에서 LLM 성능을 현저히 향상시키며, Arena-Hard에서 최대 66.6%의 향상과 Alpaca-Eval V2에서 68.5%의 향상을 달성함을 보여준다. 추가적인 분석은 NILE 프레임워크의 각 구성 요소가 이러한 상당한 성능 향상에 기여하고, 사전 훈련된 내부 지식과의 데이터셋 일관성이 LLM 잠재력을 극대화하는 데 중요하다는 강력한 증거를 제공한다.