번역이 포함된 일일 선별된 AI 연구 논문
지도 미세 조정(Supervised Fine-Tuning, SFT)은 주어진 지시에 대한 주석이 달린 응답을 모방하기 위해 언어 모델을 훈련하는 데 일반적으로 사용됩니다. 본 논문에서는 이 패러다임에 도전하며, 모델이 올바른 것을 단순히 모방하는 대신 잘못된 응답을 비평하는 방식인 비평 미세 조정(Critique Fine-Tuning, CFT)을 제안합니다. 비판적 사고를 강조하는 인간의 학습 과정에서 영감을 받은 CFT는 깊은 분석과 세밀한 이해를 촉진하여 표준 SFT에서 종종 간과되는 특성을 장려합니다. CFT의 효과를 검증하기 위해 우리는 GPT-4o를 선생님으로 사용하여 WebInstruct에서 50,000개의 샘플 데이터셋을 구성하고, (입력=[쿼리; 잘못된 응답], 출력=비평) 형식으로 비평을 생성합니다. 이 데이터셋에서 CFT는 Qwen2.5, Qwen2.5-Math, DeepSeek-Math 등과 같은 다양한 베이스 모델을 사용한 여섯 가지 수학 벤치마크에서 SFT보다 일관된 4-10%의 성능 향상을 보입니다. 더 나아가 MetaMath와 NuminaMath 데이터셋으로 확장하여 SFT보다 유사한 향상을 관찰합니다. 특히, 우리의 50,000개 샘플로 훈련된 Qwen2.5-Math-CFT 모델은 AceMath와 Qwen2.5-Math-Instruct와 같은 경쟁 모델보다 대부분의 벤치마크에서 뛰어나거나 우수한 성과를 보입니다. CFT는 잘못된 응답의 원천과 선생님 비평 모델에 대해 견고함을 보이는 소거 연구를 통해 입증됩니다. 이러한 결과를 통해 우리는 비평 중심 훈련이 언어 모델의 추론을 발전시키는 더 효과적인 대안을 제공한다고 주장합니다.
우리는 Atla Selene Mini를 소개합니다. 이는 최첨단 소형 언어 모델-판단자(SLMJ)입니다. Selene Mini는 일반적인 목적의 평가자로, 11개의 분포 밖 벤치마크에서 전체적인 성능에서 최고의 SLMJs 및 GPT-4o-mini를 능가합니다. 이는 절대 점수 매기기, 분류 및 쌍대 선호 작업을 포함하는 벤치마크에서 우수한 성과를 보여줍니다. 이는 RewardBench에서 가장 높은 점수를 받은 8B 생성 모델로, GPT-4o 및 전문 판단자와 같은 강력한 기준선을 능가합니다. 이를 달성하기 위해, 우리는 원칙에 입각한 데이터 선별 전략을 개발하여 공개 데이터셋을 합성으로 생성된 비평으로 보강하고, 필터링 및 데이터셋 제거를 통해 높은 품질을 보장합니다. 우리는 모델을 직접 선호 최적화(DPO) 및 지도 미세 조정(SFT) 손실을 결합하여 훈련시키고, 현실 세계 시나리오에서 뛰어난 성과를 내는 높은 프롬프트 가능한 평가자를 제작합니다. Selene Mini는 금융 및 의료 산업 데이터셋에서 전문가 평가와의 제로샷 일치가 현저히 향상되었습니다. 또한 프롬프트 형식의 변화에 강건합니다. 예비 결과는 Selene Mini가 라이브 커뮤니티 주도의 판단자 아레나에서 최고 순위의 평가자임을 나타냅니다. 우리는 모델 가중치를 HuggingFace(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) 및 Ollama에 공개하여 광범위한 커뮤니티 채택을 촉진합니다.
인공 지능(AI)의 급속한 성장, 특히 대규모 언어 모델(LLMs)은 온실 가스 배출뿐만 아니라 하드웨어 제조 및 폐기물 처리를 고려한 전역적인 환경 영향에 대한 우려를 제기했습니다. 주요 제공업체의 불투명성으로 인해 기업들은 자사의 AI 관련 환경 영향을 평가하고 순영향 제로 목표를 달성하는 능력이 제한됩니다. 본 논문에서는 기업의 AI 포트폴리오의 환경 영향을 추정하는 방법론을 제안하여 AI 및 수명 주기 평가(LCA) 전문 지식이 필요하지 않고 실행 가능한 통찰을 제공합니다. 결과는 대규모 생성적 AI 모델이 전통적인 모델보다 최대 4600배 더 많은 에너지를 소비한다는 것을 확인합니다. 우리의 모델링 접근 방식은 증가된 AI 사용, 하드웨어 컴퓨팅 효율성, 그리고 IPCC 시나리오에 따른 전기믹스 변화를 고려하여 2030년까지 AI 전기 사용량을 예측합니다. 널리 보급된 생성적 AI 및 점진적으로 복잡한 모델과 프레임워크와 관련된 에이전트의 채택에 주도되는 고도 채택 시나리오에서는 AI 전기 사용량이 24.4배 증가할 것으로 예측됩니다. 2030년까지 생성적 AI의 환경 영향을 완화하려면 AI 가치 사슬 전반에 걸친 조정된 노력이 필요합니다. 하드웨어 효율성, 모델 효율성 또는 그리드 개선에 대한 고립된 조치만으로는 충분하지 않습니다. 표준화된 환경 평가 프레임워크, 가치 사슬의 모든 주체로부터의 더 큰 투명성, 그리고 AI 개발을 순영향 제로 목표와 조화시키기 위한 "환경 수익률" 지표의 도입을 주장합니다.
이미지 기반 가상 착용(VTON)은 입력 의류를 대상 사람 이미지에 전송하여 가상 착용 결과물을 생성하는 것을 목표로 합니다. 그러나 의류-모델 쌍 데이터의 부족으로 인해 기존 방법들이 VTON에서 높은 일반화와 품질을 달성하는 것이 어려워지고 있습니다. 또한, 이는 마스크 없이 착용을 생성하는 능력을 제한합니다. 데이터 부족 문제를 해결하기 위해, Stable Garment와 MMTryon과 같은 방법들은 합성 데이터 전략을 사용하여 모델 측의 쌍 데이터 양을 효과적으로 증가시킵니다. 그러나 기존 방법들은 일반적으로 특정 착용 작업을 수행하고 사용자 친화성이 부족합니다. VTON 생성의 일반화와 조절 가능성을 향상시키기 위해, 우리는 다양한 요구 사항을 충족시키기 위해 다른 텍스트 지침과 모델 의상 이미지를 기반으로 착용 결과물을 생성할 수 있는 Any2AnyTryon을 제안합니다. 이는 마스크, 포즈 또는 기타 조건에 의존하지 않습니다. 구체적으로, 우리는 먼저 가상 착용 데이터셋 LAION-Garment를 구축하였으며, 이는 알려진 가장 큰 오픈 소스 의상 가상 착용 데이터셋입니다. 그런 다음, 입력 이미지의 크기와 범주에 따라 모델이 만족스러운 착용 모델 이미지나 의상 이미지를 생성할 수 있도록 하는 적응형 위치 임베딩을 소개하여 VTON 생성의 일반화와 조절 가능성을 크게 향상시킵니다. 실험에서 우리는 Any2AnyTryon의 효과를 증명하고 기존 방법과 비교합니다. 결과는 Any2AnyTryon이 유연하고 조절 가능하며 고품질의 이미지 기반 가상 착용 생성을 가능하게 한다는 것을 보여줍니다.
본 논문에서는 상업용 LLMs(GPT-4o, Claude, o1)에 의해 생성된 텍스트를 인간이 얼마나 잘 감지할 수 있는지 연구합니다. 우리는 주석 달기 위해 어노테이터를 고용하여 300편의 비픽션 영어 기사를 읽고, 그것들을 인간이 작성한 것인지 AI가 생성한 것인지로 레이블을 지정하며 결정에 대한 단락 길이의 설명을 제공합니다. 우리의 실험 결과는 LLMs를 쓰는 작업에 익숙한 어노테이터들은 전문 교육이나 피드백 없이도 AI가 생성한 텍스트를 감지하는 데 뛰어남을 보여줍니다. 사실, 이러한 "전문가" 어노테이터 5명 중 다수결은 300편 중 1편만을 잘못 분류하며, 우리가 평가한 대부분의 상업용 및 오픈 소스 탐지기를 능가합니다. 심지어 어조 변경 및 인간화와 같은 회피 전술이 존재할 때에도요. 전문가들의 자유 형식 설명에 대한 질적 분석은 'AI 어휘'와 같은 구체적인 어휘 단서에 크게 의존하는 반면, 텍스트 내에서 폼, 독창성, 명확성과 같은 더 복잡한 현상들(예: 공식성)에도 주목합니다. 우리는 인간 및 자동화된 AI 생성 텍스트의 감지에 대한 미래 연구를 촉진하기 위해 우리의 주석이 달린 데이터셋과 코드를 공개합니다.
대형 언어 모델 (LLMs)은 우리 일상의 중요한 부분이 되었습니다. 그러나 이들은 개인의 개인 정보를 해칠 수 있는 위험과 편향을 지속시키고 오도된 정보를 퍼뜨릴 수 있는 위험을 내포하고 있습니다. 이러한 위험은 책임 있는 배포를 보장하기 위해 견고한 안전 메커니즘, 윤리적 지침 및 철저한 테스트가 필요함을 강조합니다. LLM의 안전은 일반 사용자들에게 접근 가능한 배포 전에 철저히 테스트되어야 하는 중요한 속성입니다. 본 논문은 OpenAI의 초기 안전 테스트 프로그램의 일환으로 OpenAI의 새로운 o3-mini LLM에 대한 외부 안전 테스트 경험을 보고합니다. 특히 Mondragon 대학교와 Seville 대학교의 연구자들이 수행한 이 경험에서 우리는 ASTRAL이라는 도구를 적용하여 LLM의 다양한 안전 범주를 테스트하고 평가하는 데 도움이 되는 최신의 불안전한 테스트 입력 (즉, 프롬프트)를 자동으로 체계적으로 생성합니다. 우리는 초기 o3-mini 베타 버전에서 총 10,080개의 불안전한 테스트 입력을 자동으로 생성하고 실행합니다. ASTRAL에 의해 불안전으로 분류된 테스트 케이스를 수동으로 확인한 후, 우리는 총 87개의 실제 불안전한 LLM 행동 사례를 식별합니다. OpenAI의 최신 LLM의 배포 전 외부 테스트 단계에서 발견된 주요 통찰과 결과를 강조합니다.
최근 연구에 따르면 대형 언어 모델 (Large Language Models, LLMs)은 유해한 파인튜닝 공격에 취약함이 밝혀졌습니다. 모델은 몇 가지 유해한 샘플에 대해 파인튜닝한 후 안전 정렬 능력을 상실합니다. 위험 완화를 위해 경비막이 일반적으로 사용되어 유해한 샘플을 파인튜닝하기 전에 걸러냅니다. 본 논문에서는 새로운 레드팀 방법을 설계함으로써, 데이터 필터링에 대한 경비막만 의존하는 것이 신뢰할 수 없다는 것을 보여줍니다. 저희가 제안하는 공격 방법인 '바이러스'는 경비막 필터링을 우회하는데 성공하며, 약간의 수정으로 유해한 데이터를 우회합니다. 실험 결과는 바이러스에 의해 최적화된 유해한 데이터가 100% 누설 비율까지 경비막에 감지되지 않으며 동시에 우수한 공격 성능을 달성한다는 것을 보여줍니다. 마지막으로, 본 논문을 통해 전달하고자 하는 주요 메시지는 다음과 같습니다: 유해한 파인튜닝 공격에 대한 구명수로서 경비막 필터링을 고려하는 것은 무모하며, 사전 훈련된 LLMs의 내재적 안전 문제를 해결할 수 없다는 것입니다. 저희의 코드는 https://github.com/git-disl/Virus에서 확인할 수 있습니다.