번역이 포함된 일일 선별된 AI 연구 논문
최근 멀티모달 생성 모델의 발전으로 사진처럼 사실적이고 지시에 부합하는 이미지 생성이 가능해졌지만, GPT-4o-Image와 같은 선도적인 시스템은 여전히 독점적이며 접근이 제한적입니다. 이러한 기능을 대중화하기 위해, 우리는 GPT-4o의 이미지 생성 능력을 활용하여 합성된 45K 텍스트-이미지 및 46K 텍스트-이미지-이미지 데이터로 구성된 첫 번째 데이터셋인 ShareGPT-4o-Image를 소개합니다. 이 데이터셋을 활용하여, 우리는 텍스트-이미지 및 텍스트-이미지-이미지 생성을 모두 지원하는 멀티모달 대형 언어 모델인 Janus-4o를 개발했습니다. Janus-4o는 이전 모델인 Janus-Pro에 비해 텍스트-이미지 생성에서 상당한 개선을 이루었을 뿐만 아니라, 텍스트-이미지-이미지 생성을 새롭게 지원합니다. 특히, 단 91K 합성 샘플과 8개의 A800-GPU 머신에서 6시간의 훈련만으로 텍스트-이미지-이미지 생성에서 인상적인 성능을 달성했습니다. ShareGPT-4o-Image와 Janus-4o의 공개가 사진처럼 사실적이고 지시에 부합하는 이미지 생성 분야의 개방형 연구를 촉진하기를 바랍니다.
최첨단 대규모 언어 모델(LLM)을 사전 학습시키기 위해서는 방대한 양의 깨끗하고 다양한 텍스트 데이터가 필요합니다. 대규모 고품질 영어 사전 학습 데이터셋의 공개적 개발은 최근 상당한 진전을 보였지만, 다국어 LLM을 효과적으로 학습시키는 것은 여전히 도전 과제로 남아 있습니다. 이는 주로 다수의 언어에 걸쳐 필터링 및 중복 제거 파이프라인을 맞춤화하는 데 내재된 어려움 때문입니다. 본 연구에서는 FineWeb를 기반으로 한 새로운 사전 학습 데이터셋 큐레이션 파이프라인을 소개하며, 이 파이프라인은 모든 언어를 자동으로 지원하도록 적응될 수 있습니다. 우리는 9개의 다양한 언어 세트에 대해 파이프라인 설계 선택을 광범위하게 실험하며, 측정 가능한 기준에 기반한 새로운 선택 과정을 통해 선정된 의미 있고 유익한 평가 작업들을 가이드로 삼았습니다. 궁극적으로, 우리의 파이프라인이 기존 데이터셋보다 더 우수한 성능을 보이는 모델을 생성할 수 있는 비영어 코퍼스를 생성할 수 있음을 보여줍니다. 또한, 중복 횟수와 품질을 모두 고려한 간단하고 원칙적인 데이터셋 재조정 접근 방식을 도입하여 추가적인 성능 향상을 제공합니다. 마지막으로, 우리는 거의 100개의 Common Crawl 스냅샷을 사용하여 1000개 이상의 언어로 파이프라인을 확장하여 20테라바이트(50억 문서) 규모의 새로운 다국어 데이터셋인 FineWeb2를 생성했습니다. 이 데이터셋과 함께 파이프라인, 학습 및 평가 코드베이스를 공개합니다.
대규모 언어 모델(LLMs)에서 발생하는 극단적인 활성화 이상치(activation outliers)는 양자화 성능을 심각하게 저하시켜, 효율적인 온디바이스 배포를 방해합니다. 채널별 연산(channel-wise operations)과 적응형 그래디언트 스케일링(adaptive gradient scaling)이 이러한 원인으로 알려져 있지만, 실제적인 완화 방법은 여전히 어려운 과제입니다. 우리는 사후 완화(post-hoc mitigation)에 의존하기보다는 이상치 형성을 사전에 방지하는 실용적인 지침인 Outlier-Safe Pre-Training(OSP)을 제안합니다. OSP는 세 가지 주요 혁신을 결합합니다: (1) Muon 옵티마이저는 특권 기반(privileged bases)을 제거하면서도 훈련 효율성을 유지합니다; (2) Single-Scale RMSNorm은 채널별 증폭(channel-wise amplification)을 방지합니다; (3) 학습 가능한 임베딩 투영(learnable embedding projection)은 임베딩 행렬에서 비롯된 활성화 크기를 재분배합니다. 우리는 1조 개의 토큰으로 1.4B 파라미터 모델을 훈련하여 OSP를 검증했으며, 이는 이상치 없이 훈련된 최초의 생산 규모 LLM입니다. 공격적인 4비트 양자화 하에서, 우리의 OSP 모델은 10개 벤치마크에서 평균 35.7점을 달성했습니다(Adam으로 훈련된 모델은 26.5점). 이는 단 2%의 훈련 오버헤드만 발생시킵니다. 특히, OSP 모델은 표준 모델의 극단적인 값(1818.56)에 비해 거의 제로에 가까운 초과 첨도(excess kurtosis, 0.04)를 보여, LLM 양자화 행동을 근본적으로 변화시켰습니다. 우리의 연구는 이상치가 LLM에 본질적으로 존재하는 것이 아니라 훈련 전략의 결과임을 입증하며, 더 효율적인 LLM 배포의 길을 열었습니다. 소스 코드와 사전 훈련된 체크포인트는 https://github.com/dmis-lab/Outlier-Safe-Pre-Training에서 확인할 수 있습니다.
확산 모델을 이용한 이미지 편집의 최근 발전은 생성 과정에 대한 세밀한 제어를 가능하게 하여 인상적인 결과를 달성했습니다. 그러나 이러한 방법들은 반복적인 특성으로 인해 계산적으로 매우 부담이 큽니다. 증류된 확산 모델은 더 빠른 추론을 가능하게 하지만, 주로 낮은 역변환 품질로 인해 편집 기능이 제한적입니다. 고품질의 역변환과 재구성은 원본 이미지의 구조적 및 의미적 무결성을 보존하기 때문에 정밀한 이미지 편집에 필수적입니다. 본 연구에서는 일관성 모델을 활용하여 이미지 역변환을 강화하고, 단 4단계만으로 고품질 편집을 가능하게 하는 새로운 프레임워크를 제안합니다. 우리의 방법은 재구성 정확도를 크게 향상시키고 편집 가능성과 내용 보존 사이의 조절 가능한 균형을 가능하게 하는 주기적 일관성 최적화 전략을 도입합니다. 다양한 이미지 편집 작업과 데이터셋에서 최첨단 성능을 달성하며, 우리의 방법이 전체 단계 확산 모델을 능가하거나 동등한 성능을 보이면서도 훨씬 더 효율적임을 입증합니다. 본 방법의 코드는 https://github.com/ControlGenAI/Inverse-and-Edit에서 확인할 수 있습니다.
Llama와 Qwen과 같은 서로 다른 기본 언어 모델 패밀리는 강화 학습(RL)을 통한 사후 훈련 과정에서, 특히 추론 집약적인 작업에서 상이한 행동을 보인다. 어떤 기본 언어 모델이 강화 학습에 적합한가? 이 질문에 대한 깊은 이해는 차세대 RL 확장 가능한 기반 모델 개발에 필수적이다. 본 연구에서는 Qwen과 Llama라는 두 대표적인 모델 패밀리에 초점을 맞추어 중간 훈련 전략이 RL 동역학에 어떻게 영향을 미치는지 조사한다. 우리의 연구는 다음과 같은 사실을 밝혀냈다: (1) MegaMath-Web-Pro와 같은 고품질 수학 코퍼스는 기본 모델과 RL 성능을 모두 크게 향상시키는 반면, 기존의 대안들(예: FineMath-4plus)은 이를 달성하지 못한다; (2) QA 스타일 데이터, 특히 긴 사고 연쇄(CoT) 추론 예제를 추가하면 RL 결과가 더욱 개선되며, 명령어 데이터는 이 효과를 더욱 강화한다; (3) 긴 CoT는 추론 깊이를 향상시키지만, 모델 응답의 장황함과 RL 훈련의 불안정성을 유발할 수 있어 데이터 포맷팅의 중요성을 강조한다; (4) 중간 훈련 규모를 확장하면 하류 RL 성능이 지속적으로 강화된다. 이러한 통찰을 바탕으로, 우리는 두 단계의 중간 훈련 전략인 Stable-then-Decay를 제안한다. 이 전략에서는 기본 모델을 먼저 200B 토큰에 대해 일정한 학습률로 훈련한 후, 학습률 감소를 적용하여 세 개의 CoT 중심 분기에서 20B 토큰을 추가로 훈련한다. 이를 통해 RL 호환성이 강하고 RL 친화적인 모델 패밀리(예: Qwen)와의 성능 격차를 줄인 OctoThinker 모델 패밀리를 개발했다. 우리의 연구가 RL 시대의 기반 모델을 위한 사전 훈련 전략을 형성하는 데 도움이 되기를 바란다. 추가 연구를 지원하기 위해, 우리는 오픈소스 모델과 700억 토큰 이상의 정제된 수학 추론 집약적 코퍼스(예: MegaMath-Web-Pro-Max)를 공개한다.
실제 환경에서 복잡한 상호작용 작업을 수행할 수 있는 구체화된 에이전트를 개발하는 것은 구체화된 AI의 근본적인 과제로 남아 있습니다. 최근 시뮬레이션 플랫폼의 발전으로 구체화된 시각 언어 모델(VLMs)을 훈련시키기 위한 작업 다양성이 크게 향상되었지만, 대부분의 플랫폼은 단순화된 로봇 형태를 사용하고 저수준 실행의 확률적 특성을 우회함으로써 실제 로봇으로의 전이성을 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 AI2-THOR의 확장 버전을 기반으로 한 복잡한 이중 팔 휴머노이드 로봇을 위한 물리 기반 시뮬레이션 플랫폼인 DualTHOR를 소개합니다. 우리의 시뮬레이터는 실제 로봇 자산, 이중 팔 협업을 위한 작업 세트, 그리고 휴머노이드 로봇을 위한 역기구학 솔버를 포함하고 있습니다. 또한, 물리 기반 저수준 실행을 통해 잠재적 실패를 통합하는 비상 메커니즘을 도입하여 실제 시나리오와의 격차를 줄였습니다. 우리의 시뮬레이터는 가정 환경에서 VLMs의 견고성과 일반화를 보다 포괄적으로 평가할 수 있게 합니다. 광범위한 평가 결과, 현재의 VLMs은 이중 팔 조율에 어려움을 겪고 비상 상황이 포함된 현실적인 환경에서 제한된 견고성을 보여주며, 구체화된 작업을 위한 더 능력 있는 VLMs을 개발하기 위해 우리의 시뮬레이터를 사용하는 것의 중요성을 강조합니다. 코드는 https://github.com/ds199895/DualTHOR.git에서 확인할 수 있습니다.
시뮬레이션 기반 데이터 합성은 현실 세계의 로봇 조작 성능을 향상시키는 강력한 패러다임으로 부상하고 있다. 그러나 기존의 합성 데이터셋은 두 가지 과제로 인해 견고한 양손 조작을 지원하기에는 여전히 부족한 실정이다: (1) 새로운 작업을 위한 효율적이고 확장 가능한 데이터 생성 방법의 부재, 그리고 (2) 현실 세계의 복잡성을 충분히 반영하지 못하는 지나치게 단순화된 시뮬레이션 환경. 본 연구에서는 자동화된 대규모 데이터 생성과 양손 조작을 위한 통합 평가 프로토콜을 제공하는 확장 가능한 시뮬레이션 프레임워크인 RoboTwin 2.0을 제안한다. 먼저, 147개 카테고리에 걸쳐 731개의 인스턴스로 구성된 대규모 객체 라이브러리인 RoboTwin-OD를 구축하고, 각 객체에 의미론적 및 조작 관련 레이블을 부여하였다. 이를 기반으로, 다중 모드 대형 언어 모델(MLLMs)과 시뮬레이션 내 반복적 개선을 결합하여 작업 수준의 실행 코드를 자동으로 생성하는 전문가 데이터 합성 파이프라인을 개발하였다. 시뮬레이션에서 현실로의 전이 성능을 개선하기 위해, RoboTwin 2.0은 다섯 가지 축(잡동사니, 조명, 배경, 테이블 높이, 언어 지시)에 걸친 구조화된 도메인 랜덤화를 도입하여 데이터 다양성과 정책 견고성을 강화하였다. 이 프레임워크를 5가지 로봇 구현체에 걸쳐 50개의 양손 작업에 적용하고, 100,000개 이상의 도메인 랜덤화된 전문가 궤적을 사전 수집하였다. 실험 결과, 코드 생성 성공률이 10.9% 향상되었으며, 새로운 현실 세계 시나리오에 대한 일반화 능력이 개선되었다. 본 데이터셋으로 미세 조정된 VLA 모델은 미지의 현실 세계 작업에서 367%의 상대적 개선(42.0% 대 9.0%)을 달성했으며, 합성 데이터만으로 학습된 제로샷 모델은 228%의 상대적 이득을 보여 현실 세계 감독 없이도 강력한 일반화 능력을 입증하였다. 견고한 양손 조작 연구를 지원하기 위해 데이터 생성기, 벤치마크, 데이터셋 및 코드를 공개한다.
확산 모델(Diffusion Model)은 이미지 합성 분야에서 선도적인 접근법으로 부상하며, 탁월한 사실감과 다양성을 보여주고 있다. 그러나 고해상도에서의 확산 모델 학습은 여전히 계산 비용이 높으며, 학습 해상도를 초과하는 이미지를 합성하기 위한 기존의 제로샷(zero-shot) 생성 기술은 종종 객체 중복 및 공간적 비일관성과 같은 아티팩트를 발생시킨다. 본 논문에서는 사전 학습된 확산 모델을 사용하여 초고해상도 이미지 합성에서 시각적 충실도와 구조적 일관성을 크게 향상시키는 학습이 필요 없는 제로샷 접근법인 HiWave를 소개한다. 우리의 방법은 두 단계의 파이프라인을 사용한다: 사전 학습된 모델에서 기본 이미지를 생성한 후 패치 단위의 DDIM 역변환 단계와 새로운 웨이블릿 기반 디테일 강화 모듈을 적용한다. 구체적으로, 먼저 역변환 방법을 사용하여 기본 이미지에서 전역적 일관성을 보존하는 초기 잡음 벡터를 도출한다. 이후 샘플링 과정에서 우리의 웨이블릿 영역 디테일 강화기는 기본 이미지의 저주파 성분을 유지하여 구조적 일관성을 보장하면서, 고주파 성분을 선택적으로 유도하여 미세한 디테일과 질감을 풍부하게 한다. Stable Diffusion XL을 사용한 광범위한 평가 결과, HiWave는 기존 방법에서 나타나는 일반적인 시각적 아티팩트를 효과적으로 완화하며 우수한 지각적 품질을 달성함을 보여준다. 사용자 연구에서도 HiWave의 성능이 입증되었는데, 80% 이상의 비교에서 최신 대안보다 선호되었으며, 이는 재학습이나 아키텍처 수정 없이도 고품질의 초고해상도 이미지 합성에 효과적임을 강조한다.
대형 언어 모델(LLMs)은 코드 생성에 탁월한 능력을 보이지만, 특히 복잡한 프로그래밍 작업에서 출력물의 기능적 정확성을 보장하는 것은 지속적인 과제로 남아 있습니다. 전통적인 테스트 주도 개발(TDD)은 코드 개선을 위한 방법을 제공하지만, LLMs와의 효율성은 고품질 테스트 케이스의 부족 또는 자동화된 테스트 생성의 함정, 예를 들어 편향된 테스트나 부정확한 출력 예측으로 인해 수정 과정을 잘못 이끌 수 있는 문제로 인해 종종 제한됩니다. 본 논문은 특정 입력-출력 예제에 의존하는 대신, 속성 기반 테스트(PBT)를 활용하여 고수준 프로그램 속성이나 불변식을 검증하는 새로운 프레임워크인 Property-Generated Solver를 소개합니다. 이러한 속성은 종종 철저한 테스트 오라클을 직접 예측하는 것보다 정의하고 검증하기가 더 간단하며, 테스트가 검증하려는 코드와 동일한 결함을 공유할 수 있는 "자기기만의 순환"을 깨뜨립니다. Property-Generated Solver는 두 개의 협력적인 LLM 기반 에이전트를 사용합니다: 코드 생성과 반복적 개선에 전념하는 Generator와 PBT 생명주기를 관리하고 속성 위반으로부터 의미적으로 풍부한 피드백을 형성하는 Tester입니다. 그 결과로 생성된 포괄적이고 실행 가능한 피드백은 Generator의 개선 작업을 안내합니다. 이 반복적이고 폐쇄형 패러다임 내에서 PBT를 핵심 검증 엔진으로 설정함으로써, Property-Generated Solver는 LLMs가 더 정확하고 일반화 가능한 코드를 생성하도록 이끄는 강력한 메커니즘을 제공합니다. 여러 코드 생성 벤치마크에서의 광범위한 실험 결과는 Property-Generated Solver가 기존 TDD 방법 대비 23.1%에서 37.3%에 이르는 상대적 개선을 달성함을 보여줍니다.
최근 대규모 언어 모델(LLM)의 발전은 모델을 재학습하지 않고도 성능을 개선하기 위해 추론 시점의 컴퓨팅 자원 확장에 초점을 맞추고 있습니다. 일반적인 접근 방식은 여러 출력을 병렬로 샘플링한 후 그 중 하나를 최종 출력으로 선택하는 것입니다. 그러나 지금까지의 연구는 주로 영어와 수학, 코드 등 소수 도메인에 집중되어 왔습니다. 이와 대조적으로, 우리는 개방형 작업, 형식적으로 검증 가능한 작업, 그리고 다양한 언어에 걸쳐 일반화 가능한 기술에 가장 관심이 있습니다. 본 연구에서는 다국어 및 다중 작업 환경에서 개방형 생성 작업을 위한 추론 시점 컴퓨팅 자원을 견고하게 확장하는 방법을 탐구합니다. 우리의 연구 결과는 다양한 도메인과 언어 설정을 고려하기 위해 온도 변동 기반 샘플링 전략과 선택 전략 모두를 조정해야 함을 보여줍니다. 기존 선택 방법을 평가한 결과, 영어에서 효과적인 전략들이 다른 언어로 일반화되지 못하는 경우가 많음을 확인했습니다. 우리는 다국어 및 다중 작업 추론 시나리오에 특화된 새로운 샘플링 및 선택 전략을 제안하고, 이러한 전략이 다양한 언어와 작업에서 상당한 성능 향상을 가져옴을 입증합니다. 특히, 우리의 통합 샘플링 및 선택 방법은 8B 모델에서 m-ArenaHard-v2.0 프롬프트에 대해 Gemini와 같은 독점 모델 대비 평균 +6.8의 승률 상승을 이끌어냈습니다. 더 큰 규모에서는 Command-A(111B 모델)가 우리의 방법을 적용하여 단일 샘플 디코딩 대비 단 5개의 샘플로 동일 벤치마크에서 +9.0의 승률 개선을 보였으며, 이는 최소 비용으로 상당한 증가를 나타냅니다. 우리의 결과는 저대표 언어에서의 성능 개선을 민주화하기 위해 언어 및 작업 인식 추론 시점 컴퓨팅 접근법의 필요성을 강조합니다.
추론 능력을 갖춘 대형 언어 모델은 최근 다양한 분야에서 최첨단 성능을 달성했습니다. 그러나 이 모델들의 장문 체인-오브-사고(chain-of-thought) 추론은 해석 가능성에 있어 어려움을 야기합니다. 생성된 각 토큰이 이전의 모든 토큰에 의존하기 때문에 계산 과정을 분해하기가 더 어려워지기 때문입니다. 우리는 문장 수준에서 추론 흔적을 분석하는 것이 추론 과정을 이해하는 데 유망한 접근법이라고 주장합니다. 이를 위해 세 가지 상호 보완적인 귀속(attribution) 방법을 제시합니다: (1) 블랙박스 방식으로, 모델이 특정 문장을 생성하거나 다른 의미의 문장을 생성하도록 조건을 부여한 100개의 롤아웃(rollout)을 통해 최종 답변을 비교하여 각 문장의 반사실적 중요도를 측정하는 방법; (2) 화이트박스 방식으로, 문장 쌍 간의 어텐션 패턴을 집계하여, 모든 미래 문장으로부터 과도한 어텐션을 받는 "브로드캐스팅" 문장과 이를 수신하는 "리시버" 어텐션 헤드를 식별하는 방법; (3) 한 문장에 대한 어텐션을 억제하고 각 미래 문장의 토큰에 미치는 영향을 측정함으로써 문장 간의 논리적 연결을 평가하는 인과적 귀속 방법. 각 방법은 추론 과정에서 과도한 중요성을 가지며 이후 추론 과정에 불균형한 영향을 미치는 "사고 앵커(thought anchors)"의 존재를 입증합니다. 이러한 사고 앵커는 일반적으로 계획 수립이나 역추적 문장입니다. 우리는 이 방법들의 출력을 시각화하기 위한 오픈소스 도구(www.thought-anchors.com)를 제공하고, 모델이 다단계 추론을 수행하는 방식을 매핑하는 데 있어 여러 방법 간의 일관된 패턴을 보여주는 사례 연구를 제시합니다. 이러한 방법들 간의 일관성은 문장 수준 분석이 추론 모델을 더 깊이 이해하는 데 있어 잠재력을 가지고 있음을 보여줍니다.
대규모 언어 모델(LLM)은 언어 이해 및 생성 분야에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 인상적인 성능은 일반적으로 상당한 모델 크기를 동반하며, 이는 배포 및 추론 과정에서 상당한 어려움을 야기합니다. 모델 파라미터의 구조적 가지치기(pruning)는 배포 시점의 계산 비용을 줄이는 유망한 방법을 제공하지만, 현재의 방법들은 주로 단일 모델 가지치기에 초점을 맞추고 있습니다. 본 연구에서는 미세 조정된 모델 변형들로부터 층(layer)을 전략적으로 결합하거나 병합함으로써 모델을 압축하는 새로운 전략을 개발하였습니다. 이는 서로 다른 미세 조정에서 강조된 능력을 통합함으로써 원본 모델의 성능을 보존합니다. 우리는 이러한 LLM의 최적화된 맞춤화를 0차 최적화 문제로 설정하고, 세 가지 다른 연산을 지원하는 탐색 공간을 채택하였습니다: (1) 층 제거, (2) 다양한 후보 모델로부터의 층 선택, (3) 층 병합. 실험 결과, 이 접근법은 경쟁력 있는 모델 가지치기를 가능하게 하였으며, 예를 들어 Llama2-13B 모델 패밀리의 경우, 압축된 모델이 원본 성능의 약 97.3%를 유지하면서 파라미터의 약 25%를 제거하여, 기존의 최신 방법들을 크게 능가하는 성과를 보였습니다. 코드는 https://github.com/Guinan-Su/auto-merge-llm에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 계산 및 에너지 비용은 모델 크기의 증가와 수억 명의 사용자에 의한 대규모 채택으로 인해 기하급수적으로 증가해 왔습니다. LLM의 단위 비용은 토큰 계산입니다. 따라서 토크나이저는 모델의 효율성에 중요한 역할을 하며, 학습 코퍼스 내 텍스트에 대한 토큰 수를 최소화하기 위해 신중하게 최적화됩니다. LLM의 가장 인기 있는 응용 분야 중 하나는 사용자와 상호작용하는 챗봇입니다. 여기서 주목할 점은 이러한 챗봇의 경우, 사용자 텍스트 입력과 챗봇 응답에서 토크나이저의 성능이 중요하다는 것입니다. 이는 학습 코퍼스의 텍스트와는 다를 가능성이 높습니다. 따라서 즉각적으로 제기되는 질문은 챗봇 대화를 위해 토크나이저를 최적화하는 것이 잠재적인 이점을 가질 수 있는지 여부입니다. 본 논문에서는 공개된 챗봇 대화 코퍼스를 사용하여 다양한 토크나이저의 어휘를 재설계하고 이 도메인에서의 성능을 평가함으로써 이 아이디어를 탐구합니다. 결과는 대화 최적화 토크나이저가 챗봇 대화에서 토큰 수를 지속적으로 줄이며, 이는 5%에서 10% 범위의 의미 있는 에너지 절약으로 이어질 수 있음을 보여줍니다. 또한 원본 학습 코퍼스에 대한 토큰화 효율성에는 최소한의 영향만 미치거나 약간의 긍정적인 영향을 미치는 것으로 나타났습니다.
대규모 언어 모델(LLMs)은 뛰어난 코드 생성 능력을 보이지만, 외부 라이브러리 API의 빈번한 업데이트에 적응하는 데는 어려움을 겪습니다. 이는 훈련 데이터에서 얻은 구식 API 지식에 의존하기 때문에 발생하는 중요한 한계로, 최신 문서에 접근할 수 있음에도 불구하고 동적 환경에서 신뢰할 수 있는 코드 생성을 방해합니다. 이 문제를 해결하기 위해, 우리는 인간 프로그래머가 API 변경에 적응하는 방식을 모방한 새로운 프레임워크인 ReCode(규칙 기반 강화 학습을 통한 코드 업데이트)를 제안합니다. 구체적으로, 우리는 약 2,000개의 데이터 항목으로 구성된 데이터셋을 구축하여 LLMs가 업데이트된 정보를 기반으로 버전 마이그레이션을 수행하도록 훈련시킵니다. 그런 다음, 강화 학습의 보상으로 사용하기 위해 수정된 문자열 유사성 메트릭을 코드 평가에 도입합니다. 우리의 실험 결과, ReCode는 특히 보이지 않는 CodeUpdateArena 작업에서 동적 API 시나리오에서 LLMs의 코드 생성 성능을 크게 향상시킵니다. 중요한 점은, 지도 학습 미세 조정과 비교했을 때 ReCode가 LLMs의 일반적인 코드 생성 능력에 미치는 영향이 적다는 것입니다. 우리는 다양한 LLMs와 강화 학습 알고리즘(GRPO 및 DAPO)에 ReCode를 적용하여 모두 일관된 개선을 달성했습니다. 특히, 훈련 후 Qwen2.5-Coder-7B는 32B 매개변수 코드 명령어 튜닝 모델 및 동일한 아키텍처를 가진 추론 모델의 성능을 능가했습니다. 코드는 https://github.com/zjunlp/ReCode에서 확인할 수 있습니다.
접근성은 현대 사회에서 여전히 중요한 문제로 남아 있으며, 많은 기술이 사용자 요구의 전체 범위를 지원하도록 개발되지 못하고 있습니다. 기존의 다중 에이전트 시스템(MAS)은 폐쇄형 설계로 인한 맞춤화 부족으로 인해 필요한 사용자에게 포괄적인 지원을 제공하지 못하는 경우가 많습니다. 결과적으로 장애를 가진 개인들은 디지털 환경과 상호작용하려 할 때 상당한 장벽에 직면하게 됩니다. 우리는 사용자의 요구에 기반하여 모달리티 변환을 수행하는 다중 모달리티 접근성 MAS인 MATE를 소개합니다. 이 시스템은 데이터를 이해 가능한 형식으로 변환함으로써 장애를 가진 사람들을 지원하는 데 유용합니다. 예를 들어, 사용자가 시력이 좋지 않아 이미지를 받는 경우, 시스템은 이 이미지를 오디오 설명으로 변환합니다. MATE는 헬스케어와 같은 다양한 도메인, 산업 및 영역에 적용될 수 있으며, 다양한 사용자 그룹을 위한 유용한 도우미가 될 수 있습니다. 이 시스템은 LLM API 호출부터 사용자 정의 머신러닝(ML) 분류기 사용에 이르기까지 다양한 유형의 모델을 지원합니다. 이러한 유연성은 시스템이 다양한 요구에 적응할 수 있도록 보장하며, 다양한 하드웨어와 호환됩니다. 시스템이 로컬에서 실행될 것으로 예상되므로, 민감한 정보의 프라이버시와 보안을 보장합니다. 또한, 이 프레임워크는 실시간 사용자 지원을 위해 기관 기술(예: 디지털 헬스케어 서비스)과 효과적으로 통합될 수 있습니다. 더 나아가, 우리는 사용자 입력에서 정확한 모달리티 변환 작업을 추출할 수 있는 ModCon-Task-Identifier 모델을 소개합니다. 수많은 실험을 통해 ModCon-Task-Identifier가 우리의 사용자 정의 데이터에서 다른 LLM 및 통계 모델을 꾸준히 능가함을 보여줍니다. 우리의 코드와 데이터는 https://github.com/AlgazinovAleksandr/Multi-Agent-MATE에서 공개적으로 이용 가능합니다.
AI 기반 콘텐츠 생성은 영화 제작에서 잠재력을 보여주고 있습니다. 그러나 기존의 영화 생성 시스템은 시네마틱 원칙을 구현하는 데 어려움을 겪으며, 이로 인해 전문적인 품질의 영화를 생성하지 못하고 있습니다. 특히 다양한 카메라 언어와 시네마틱 리듬이 부족하여 템플릿화된 시각적 요소와 매력적이지 않은 내러티브를 초래합니다. 이를 해결하기 위해 우리는 실세계의 시네마틱 원칙을 통합하여 전문적인 영화 생성을 가능하게 하는 종단간(end-to-end) AI 시스템인 FilMaster를 소개합니다. 이 시스템은 편집 가능한 산업 표준 출력물을 생성합니다. FilMaster는 두 가지 핵심 원칙에 기반을 두고 있습니다: (1) 방대한 실세계 영화 데이터로부터 촬영 기법을 학습하고, (2) 전문가적이고 관객 중심의 포스트 프로덕션 워크플로우를 모방하는 것입니다. 이러한 원칙에 영감을 받아 FilMaster는 두 단계로 구성됩니다: 사용자 입력을 비디오 클립으로 변환하는 Reference-Guided Generation Stage와, 시네마틱 리듬을 위해 시각적 및 청각적 요소를 조율하여 원본 영상을 오디오비주얼 출력물로 변환하는 Generative Post-Production Stage입니다. 우리의 생성 단계는 440,000개의 영화 클립으로 구성된 방대한 코퍼스에서 참조 클립을 검색하여 AI가 전문적인 카메라 언어를 생성하도록 안내하는 Multi-shot Synergized RAG Camera Language Design 모듈을 강조합니다. 포스트 프로덕션 단계는 시뮬레이션된 관객 피드백을 기반으로 Rough Cut과 Fine Cut 프로세스를 포함한 Audience-Centric Cinematic Rhythm Control 모듈을 설계하여 오디오비주얼 요소를 효과적으로 통합하고 매력적인 콘텐츠를 달성하는 전문가적 워크플로우를 모방합니다. 이 시스템은 (M)LLM 및 비디오 생성 모델과 같은 생성형 AI 모델로 구동됩니다. 또한, AI 생성 영화를 평가하기 위한 포괄적인 벤치마크인 FilmEval을 소개합니다. 광범위한 실험을 통해 FilMaster가 카메라 언어 설계와 시네마틱 리듬 제어에서 우수한 성능을 보이며, 전문 영화 제작에서 생성형 AI의 발전을 이끌고 있음을 확인했습니다.
우리는 PubMed에서 두 단계의 주석 프로세스를 통해 구축된 생의학 텍스트 데이터셋인 Biomed-Enriched를 소개한다. 첫 번째 단계에서는 대형 언어 모델이 PubMed 과학 논문에서 400,000개의 단락을 주석 처리하며, 이 단락들의 유형(리뷰, 연구, 임상 사례, 기타), 도메인(임상, 생의학, 기타), 그리고 교육적 품질에 대한 점수를 부여한다. 교육적 품질 점수(1에서 5점으로 평가)는 해당 단락이 대학 수준의 학습에 얼마나 유용한지를 추정한다. 이러한 주석은 소형 언어 모델을 미세 조정하는 데 사용되며, 이 모델은 PMC-OA 코퍼스 전체에 걸쳐 레이블을 전파한다. 결과적으로 생성된 메타데이터를 통해 상업적 사용이 허가된 논문에서 450,000개 이상의 고품질 단락을 포함한 200만 개의 임상 사례 단락을 포함한 정제된 하위 집합을 추출하고, 품질 필터링 및 도메인 업샘플링을 통해 여러 변형을 구성할 수 있다. 임상 텍스트는 일반적으로 병원 기록이 공개적으로 공유될 수 없기 때문에 프라이버시 제약으로 인해 접근하기 어렵다. 따라서 우리의 데이터셋은 PubMed에서 공개적으로 이용 가능한 대규모 임상 사례 컬렉션을 제공함으로써 생의학 및 임상 자연어 처리(NLP)에 있어 귀중한 자원이 된다. OLMo2를 사용한 예비적인 지속적 사전 학습 실험은 이러한 정제된 하위 집합이 목표 개선을 가능하게 하며, 임상 업샘플링이 MMLU ProfMed에서 약 5%의 성능 향상을, 교육적 품질 필터링이 MedQA와 MedMCQA에서 약 1%의 성능 향상을 가져온다는 것을 보여준다. 이러한 기술들의 조합은 더 빠른 수렴을 이끌어, 동일한 성능을 훈련 토큰의 1/3로 달성함으로써 더 효율적이고 효과적인 생의학 사전 학습 전략의 잠재력을 시사한다.
AI 디버깅의 효율성은 예측 가능한 지수적 감소 패턴을 따릅니다. 대부분의 모델은 단 2~3번의 시도만으로도 디버깅 능력의 60~80%를 상실하며, 이는 실용적인 코드 생성 시스템에 있어 반복적 디버깅이 중요한 능력임에도 불구하고 발생하는 현상입니다. 우리는 디버깅이 비효율적으로 변하는 시점을 정량화하고 개입 시점을 예측하는 수학적 프레임워크인 디버깅 감소 지수(Debugging Decay Index, DDI)를 소개합니다. 우리의 전략적 새 출발 접근법은 디버깅 과정의 전략적 지점에서 탐색(exploitation)에서 탐구(exploration)로 전환하며, 적절한 시기의 개입이 디버깅의 효율성을 회복시킬 수 있음을 입증합니다. DDI는 현재 AI 디버깅의 근본적인 한계를 드러내고, 반복적 코드 생성 전략을 최적화하기 위한 최초의 정량적 프레임워크를 제공합니다.