번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 빠르게 진화함에 따라, 이들의 출력에 대한 정확한 피드백과 확장 가능한 감독을 제공하는 것이 시급하고 중요한 문제로 대두되고 있습니다. LLM을 비평 모델로 활용하여 자동화된 감독을 달성하는 것은 유망한 해결책입니다. 본 연구에서는 LLM의 수학 비평 능력을 연구하고 향상시키는 데 초점을 맞추었습니다. 현재의 LLM 비평 모델은 각 단계에 대한 비평이 너무 피상적이고 얕아, 판단 정확도가 낮고 LLM 생성기가 실수를 수정할 수 있는 충분한 피드백을 제공하지 못하는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 수학 문제 해결의 각 추론 단계를 신중하게 비평할 수 있는 LLM 비평 모델을 개발하기 위한 새로운 두 단계 프레임워크를 제안합니다. 첫 번째 단계에서는 Qwen2.5-72B-Instruct를 활용하여 4.5K개의 장문 비평을 생성하여 지도 학습을 위한 시드 데이터로 사용합니다. 각 시드 비평은 다각도의 검증과 각 추론 단계에 대한 초기 비평의 심층적인 비평을 포함하는 신중한 단계별 비평으로 구성됩니다. 그런 다음, PRM800K의 기존 인간 주석 데이터 또는 몬테카를로 샘플링 기반 정확도 추정을 통해 자동으로 주석 처리한 데이터를 사용하여 미세 조정된 모델에 강화 학습을 수행하여 비평 능력을 더욱 강화합니다. Qwen2.5-7B-Instruct를 기반으로 개발된 우리의 비평 모델은 다양한 오류 식별 벤치마크에서 기존의 LLM 비평 모델(동일 규모의 DeepSeek-R1-distill 모델 및 GPT-4o 포함)을 크게 능가할 뿐만 아니라, 더 상세한 피드백을 통해 LLM 생성기가 오류가 있는 단계를 더 효과적으로 개선할 수 있도록 돕습니다.
인터랙티브 생성 비디오(Interactive Generative Video, IGV)는 다양한 분야에서 고품질의 인터랙티브 비디오 콘텐츠에 대한 수요가 증가함에 따라 중요한 기술로 부상하고 있다. 본 논문에서 우리는 IGV를 사용자 참여를 가능하게 하는 제어 신호와 반응형 피드백을 통해 다양한 고품질 비디오 콘텐츠를 생성하는 생성 능력을 결합한 기술로 정의한다. 우리는 IGV의 현재 응용 현황을 조사하며, 세 가지 주요 분야에 초점을 맞춘다: 1) 게임 분야, 여기서 IGV는 가상 세계에서의 무한한 탐색을 가능하게 한다; 2) 구현된 AI, 여기서 IGV는 다이나믹하게 진화하는 장면과의 다중 모드 상호작용에서 에이전트를 훈련시키기 위한 물리학적 인식 환경 합성기로 작용한다; 3) 자율 주행, 여기서 IGV는 안전-중요 테스트와 검증을 위한 폐쇄 루프 시뮬레이션 기능을 제공한다. 미래 개발을 안내하기 위해, 우리는 이상적인 IGV 시스템을 다섯 가지 필수 모듈로 분해하는 포괄적인 프레임워크를 제안한다: 생성, 제어, 메모리, 다이나믹스, 그리고 지능. 더 나아가, 우리는 이상적인 IGV 시스템을 실현하기 위한 각 구성 요소의 기술적 도전과 미래 방향을 체계적으로 분석한다. 예를 들어, 실시간 생성 달성, 오픈 도메인 제어 가능, 장기적 일관성 유지, 정확한 물리 시뮬레이션, 그리고 인과적 추론 통합 등이 포함된다. 우리는 이 체계적인 분석이 IGV 분야의 미래 연구와 개발을 촉진하고, 궁극적으로 더 정교하고 실용적인 응용으로 기술을 발전시킬 것이라고 믿는다.
최근 대규모 언어 모델의 발전은 사고의 연쇄(Chain-of-Thought, CoT)와 강화 학습(Reinforcement Learning, RL)이 성능을 향상시킬 수 있음을 보여주었습니다. 그러나 이러한 추론 전략을 시각적 생성 영역에 적용하는 것은 아직까지 크게 탐구되지 않았습니다. 본 논문에서는 RL과 이중 수준의 CoT 추론 과정을 기반으로 한 새로운 추론 강화 텍스트-이미지 생성 모델인 T2I-R1을 소개합니다. 구체적으로, 우리는 생성의 다양한 단계를 향상시키기 위해 활용할 수 있는 두 가지 수준의 CoT를 식별했습니다: (1) 프롬프트의 상위 수준 계획을 위한 의미 수준의 CoT와 (2) 패치별 생성 과정에서의 저수준 픽셀 처리를 위한 토큰 수준의 CoT입니다. 이 두 수준의 CoT를 더 잘 조정하기 위해, 우리는 생성 보상의 앙상블을 포함한 BiCoT-GRPO를 도입하여 동일한 학습 단계 내에서 두 생성 CoT를 원활하게 최적화합니다. 우리의 추론 전략을 베이스라인 모델인 Janus-Pro에 적용함으로써, T2I-CompBench에서 13%, WISE 벤치마크에서 19%의 성능 향상을 달성했으며, 최첨단 모델인 FLUX.1을 능가하는 결과를 얻었습니다. 코드는 https://github.com/CaraJ7/T2I-R1에서 확인할 수 있습니다.
순차적 의사결정 작업을 위한 대형 언어 모델(LLM) 에이전트의 성능을 개선하기 위한 많은 방법들은 작업별 지식 공학에 의존합니다. 이는 프롬프트 튜닝, 선별된 문맥 내 예시, 또는 맞춤형 관찰 및 행동 공간 등을 포함합니다. 이러한 접근법을 사용할 때, 에이전트의 성능은 투입된 지식 공학의 질이나 양에 따라 향상됩니다. 대신, 우리는 LLM 에이전트가 유사한 작업에서 자신의 성공적인 경험을 문맥 내에서 학습함으로써 성능을 자동으로 개선할 수 있는 방법을 연구합니다. 작업별 지식 공학에 의존하는 대신, 우리는 자체 생성된 예시 데이터베이스를 구축하고 개선하는 데 초점을 맞춥니다. 우리는 훈련 작업에서 성공적인 궤적을 단순히 누적하는 것만으로도 ALFWorld(73%에서 89%로), Wordcraft(55%에서 64%로), InterCode-SQL(75%에서 79%로) 세 가지 벤치마크에서 테스트 성능이 향상됨을 보여줍니다. 이는 초기 에이전트가 작업당 두세 번의 시도를 허용했을 때 달성하는 성능과 일치합니다. 그런 다음 우리는 두 가지 확장을 소개합니다: (1) 고성능 예시 컬렉션을 식별하기 위한 인구 기반 훈련을 통한 데이터베이스 수준 선택, 그리고 (2) 문맥 내 예시로서의 경험적 유용성을 기반으로 개별 궤적을 보유하는 예시 수준 선택. 이러한 확장은 성능을 더욱 향상시켜 ALFWorld에서 91%를 달성하며, 작업별 구성 요소와 프롬프트를 사용하는 더 복잡한 접근법과 동등한 성능을 보여줍니다. 우리의 결과는 자동 궤적 데이터베이스 구축이 노동 집약적인 지식 공학에 대한 강력한 대안을 제공함을 입증합니다.
입술 동기화는 기존 비디오의 입술 움직임을 새로운 입력 오디오와 맞추는 작업으로, 일반적으로 오디오 기반 얼굴 애니메이션의 단순화된 변형으로 간주됩니다. 그러나 입술 동기화는 말하는 머리 생성에서 흔히 발생하는 문제들(예: 시간적 일관성) 외에도, 입력 비디오에서의 표정 누출 및 얼굴 가림과 같은 중요한 새로운 도전 과제를 제시합니다. 이러한 문제들은 자동 더빙과 같은 실제 응용 프로그램에 심각한 영향을 미칠 수 있지만, 기존 연구에서는 종종 간과되었습니다. 이러한 단점을 해결하기 위해, 우리는 KeySync라는 두 단계 프레임워크를 제안합니다. KeySync는 시간적 일관성 문제를 해결하는 동시에, 신중하게 설계된 마스킹 전략을 통해 누출 및 가림 문제에 대한 해결책을 통합합니다. 우리는 KeySync가 입술 재구성 및 교차 동기화에서 최첨단 결과를 달성하며, 우리의 새로운 누출 지표인 LipLeak에 따라 시각적 품질을 개선하고 표정 누출을 줄이는 것을 보여줍니다. 또한, 우리의 새로운 마스킹 접근법이 가림 문제를 효과적으로 처리하는 것을 입증하고, 여러 가지 제거 연구를 통해 우리의 아키텍처 선택을 검증합니다. 코드와 모델 가중치는 https://antonibigata.github.io/KeySync에서 확인할 수 있습니다.
도덕적 이야기는 가치를 전달하는 데 있어 오랜 시간 검증된 수단이지만, 현대 자연어 처리(NLP) 분야에서는 일관된 서사와 명시적인 윤리적 교훈을 결합한 대규모 구조화된 코퍼스가 부족한 실정입니다. 우리는 이러한 격차를 TF1-EN-3M이라는 최초의 오픈 데이터셋으로 메웠습니다. 이 데이터셋은 8B 파라미터 이하의 인스트럭션 튜닝 모델로만 생성된 300만 개의 영어 우화로 구성되어 있습니다. 각 이야기는 여섯 가지 슬롯(캐릭터 -> 특성 -> 배경 -> 갈등 -> 해결 -> 교훈)으로 구성된 스캐폴드를 따르며, 조합형 프롬프트 엔진을 통해 장르 충실도를 보장하면서도 다양한 주제를 아우르도록 제작되었습니다. 하이브리드 평가 파이프라인은 (i) 문법, 창의성, 도덕적 명확성, 템플릿 준수를 평가하는 GPT 기반 비평가와 (ii) 참조 없이 다양성과 가독성을 측정하는 지표를 결합합니다. 열 가지 오픈 웨이트 후보 모델 중에서 8B 파라미터 Llama-3 변형이 최적의 품질-속도 균형을 보여주며, 단일 소비자 GPU(<24GB VRAM)에서 약 13.5센트에 1,000개의 우화를 생성합니다. 우리는 데이터셋, 생성 코드, 평가 스크립트, 그리고 전체 메타데이터를 허가형 라이선스 하에 공개하여 정확한 재현성과 비용 벤치마킹을 가능하게 합니다. TF1-EN-3M은 인스트럭션 수행, 서사 지능, 가치 정렬, 그리고 아동 친화적인 교육용 AI 연구에 새로운 길을 열어주며, 대규모 도덕적 스토리텔링이 더 이상 독점적인 초대형 모델을 필요로 하지 않음을 입증합니다.
대형 언어 모델(LLMs)은 소프트웨어 공학을 혁신적으로 변화시켰지만, 물리적 공학 분야에의 적용은 아직 충분히 탐구되지 않았습니다. 본 논문은 고성능 로켓 설계에서 LLMs의 능력을 평가하기 위해, LLMs를 고정확도 로켓 시뮬레이션에 연결하는 벤치마크인 RocketBench를 통해 실험을 진행합니다. 우리는 두 가지 점점 복잡해지는 설계 과제, 즉 목표 고도 최적화와 정밀 착륙 도전 과제에서 모델들을 테스트했습니다. 연구 결과, 최첨단 LLMs가 강력한 기본 공학 지식을 보여주는 반면, 시뮬레이션 결과를 제공받았을 때 설계를 반복적으로 개선하는 데 어려움을 겪으며 궁극적으로 인간 수준의 성능에 미치지 못하는 것으로 나타났습니다. 그러나 강화 학습(RL)을 통해 강화된 7B 파라미터 모델은 최신 기반 모델과 인간 전문가 모두를 능가하는 성능을 보였습니다. 이 연구는 RL로 훈련된 LLMs가 복잡한 공학 최적화를 위한 효과적인 도구로 활용될 수 있으며, 소프트웨어 개발을 넘어 공학 분야를 혁신할 잠재력이 있음을 보여줍니다.
최근, 장기 추론 모델들은 복잡한 추론 과제에서 강력한 성능을 보여주고 있지만, 상당한 추론 오버헤드를 초래하여 효율성이 중요한 문제로 대두되고 있습니다. 우리의 실증적 분석에 따르면, Long-CoT를 사용하는 이점은 문제에 따라 다양합니다: 일부 문제는 정교한 추론을 필요로 하는 반면, 다른 문제들은 개선이 없거나 오히려 정확도가 저하되는 경우도 있습니다. 이는 입력에 맞게 추론 깊이를 조정하는 적응형 추론 전략의 필요성을 시사합니다. 그러나 기존 연구는 주로 긴 추론 경로 내의 중복성을 줄이는 데 초점을 맞추어, Long-CoT 패러다임을 넘어서는 더 효율적인 전략의 탐구가 제한적이었습니다. 이를 해결하기 위해, 우리는 적응적이고 효율적인 추론을 위한 새로운 두 단계 프레임워크를 제안합니다. 첫째, 긴 CoT 모델과 짧은 CoT 모델을 통합하여 다양한 추론 스타일을 가능하게 하는 하이브리드 추론 모델을 구축합니다. 둘째, 그룹 수준에서 적합한 추론 스타일을 선택하고, 각 스타일 그룹 내에서 간결하고 정확한 추론을 선호하도록 이중 수준 선호도 훈련을 적용합니다. 실험 결과, 우리의 방법은 다른 베이스라인 접근법에 비해 추론 비용을 크게 줄이면서도 성능을 유지하는 것으로 나타났습니다. 특히, 다섯 개의 수학 데이터셋에서 추론의 평균 길이가 50% 이상 감소하여, 대규모 언어 모델에서 추론 효율성을 최적화하는 적응형 전략의 잠재력을 강조합니다. 우리의 코드는 곧 https://github.com/StarDewXXX/AdaR1에서 공개될 예정입니다.
스크립팅 인터페이스는 사용자가 작업을 자동화하고 소프트웨어 워크플로를 사용자 정의할 수 있게 해주지만, 전통적으로 스크립트를 작성하려면 프로그래밍 전문 지식과 특정 API에 대한 친숙함이 필요하여 많은 사용자에게 진입 장벽으로 작용합니다. 대형 언어 모델(LLM)은 자연어 질의에서 코드를 생성할 수 있지만, 런타임 코드 생성은 검증되지 않은 코드, 보안 위험, 긴 응답 시간, 높은 계산 비용으로 인해 심각하게 제한됩니다. 이러한 격차를 해소하기 위해, 우리는 LLM과 공개적으로 이용 가능한 스크립팅 가이드를 활용하여 검증된 스크립트 모음인 소프트웨어 특화 스킬셋을 선별하기 위한 오프라인 시뮬레이션 프레임워크를 제안합니다. 우리의 프레임워크는 두 가지 구성 요소로 이루어져 있습니다: (1) 상향식 기능 지도와 하향식 API 시너지 탐색을 사용하여 유용한 작업을 생성하는 작업 생성; (2) 실행 피드백을 기반으로 스크립트를 개선하고 검증하는 시도를 통한 스킬 생성. 광범위한 API 환경을 효율적으로 탐색하기 위해, 우리는 API 시너지를 포착하기 위한 그래프 신경망(GNN) 기반 링크 예측 모델을 도입하여 활용도가 낮은 API를 포함한 스킬을 생성하고 스킬셋의 다양성을 확장합니다. Adobe Illustrator를 사용한 실험에서, 우리의 프레임워크가 전통적인 런타임 코드 생성에 비해 자동화 성공률을 크게 향상시키고, 응답 시간을 단축하며, 런타임 토큰 비용을 절약하는 것으로 나타났습니다. 이는 소프트웨어 스크립팅 인터페이스를 LLM 기반 시스템의 테스트베드로 사용한 첫 번째 시도로, 통제된 환경에서 실행 피드백을 활용하는 장점을 강조하고, 특화된 소프트웨어 도메인에서 사용자 요구에 맞춰 AI 역량을 조정하는 데 유용한 통찰을 제공합니다.
다른 언어를 사용하는 사람들로 붐비는 공간에 있다고 상상해 보세요. 그런데 귀에 착용하는 기기가 모든 화자의 공간적 단서를 유지하면서 청각 공간을 당신의 모국어로 변환해 준다면 어떨까요? 우리는 '공간 음성 번역'이라는 새로운 개념을 소개합니다. 이는 착용자의 주변 환경에서 화자들의 음성을 번역하면서도, 양이 출력에서 각 화자의 방향과 독특한 음성 특성을 유지하는 헤어러블 기술입니다. 이를 실현하기 위해 우리는 블라인드 소스 분리, 위치 추정, 실시간 표현적 번역, 그리고 번역된 오디오에서 화자 방향을 유지하는 양이 렌더링 등 여러 기술적 과제를 해결했습니다. 또한 Apple M2 실리콘에서 실시간 추론을 달성했습니다. 프로토타입 양이 헤드셋을 사용한 개념 검증 평가에서, 기존 모델들이 간섭 상황에서 실패하는 것과 달리, 우리는 환경 내 다른 화자들의 강한 간섭에도 불구하고 언어 간 번역에서 최대 22.01의 BLEU 점수를 달성했습니다. 사용자 연구는 또한 이 시스템이 이전에 경험하지 못한 실제 리버브 환경에서 번역된 음성을 공간적으로 렌더링하는 데 효과적임을 확인했습니다. 한 걸음 물러서 보면, 이 작업은 음성 번역에 공간적 인지를 통합하는 첫 번째 단계를 표시합니다.
데이터 증강은 제한된 데이터 조건에서 분류 정확도, 병변 탐지, 장기 분할을 개선하기 위해 의료 영상에서 필수적입니다. 그러나 두 가지 중요한 과제가 남아 있습니다. 첫째, 자연 사진과 의료 영상 간의 현저한 도메인 차이는 중요한 질병 특징을 왜곡할 수 있습니다. 둘째, 의료 영상에서의 증강 연구는 단일 작업이나 아키텍처에 국한되어 있어, 고급 혼합 기반 전략의 이점이 명확하지 않습니다. 이러한 과제를 해결하기 위해, 우리는 뇌종양 MRI와 안구 질환 안저 데이터셋에서 컨볼루션 및 트랜스포머 백본과 통합된 여섯 가지 혼합 기반 증강 방법을 포함한 통합 평가 프레임워크를 제안합니다. 우리의 기여는 세 가지입니다. (1) 의료 영상에서 고급 데이터 증강을 위한 포괄적이고 재현 가능한 벤치마크인 MediAug을 소개합니다. (2) ResNet-50과 ViT-B 백본을 사용하여 MixUp, YOCO, CropMix, CutMix, AugMix, SnapMix을 체계적으로 평가합니다. (3) 광범위한 실험을 통해 MixUp이 ResNet-50에서 뇌종양 분류 작업에서 79.19% 정확도로 가장 큰 개선을 가져오고, SnapMix이 ViT-B에서 99.44% 정확도로 가장 큰 개선을 가져오며, YOCO가 ResNet-50에서 안구 질환 분류 작업에서 91.60% 정확도로 가장 큰 개선을 가져오고, CutMix이 ViT-B에서 97.94% 정확도로 가장 큰 개선을 가져온다는 것을 입증합니다. 코드는 https://github.com/AIGeeksGroup/MediAug에서 제공될 예정입니다.
네트워크 카메라의 수가 지속적으로 증가함에 따라, 교통 모니터링, 관리 및 최적화를 위한 지능형 교통 시스템(ITS)에서 비전 센서의 중요성이 더욱 커지고 있습니다. 그러나 도시 규모의 교통 시나리오에서 여러 개의 겹치지 않는 카메라 간의 수동 객체 추적 및 매칭은 상당한 어려움을 야기합니다. 이러한 어려움에는 다양한 차량 속성 처리, 가려짐, 조명 변화, 그림자, 그리고 다양한 비디오 해상도 등이 포함됩니다. 이러한 문제를 해결하기 위해, 우리는 다중 객체 다중 카메라 추적(MO-MCT)을 위한 효율적이고 비용 효율적인 딥러닝 기반 프레임워크를 제안합니다. 제안된 프레임워크는 객체 탐지를 위해 Mask R-CNN을 사용하고, 겹치는 탐지에서 목표 객체를 선택하기 위해 비최대 억제(NMS)를 적용합니다. 재식별을 위해 전이 학습을 사용하여 여러 카메라 간의 차량 트랙렛을 연관시키고 생성합니다. 또한, 가려짐, 조명, 그림자 문제를 처리하기 위해 적절한 손실 함수와 거리 측정 방법을 활용합니다. 최종 솔루션 식별 모듈은 ResNet-152를 사용한 특징 추출과 Deep SORT 기반의 차량 추적을 결합합니다. 제안된 프레임워크는 46개의 카메라 피드로 구성된 5차 AI City Challenge 데이터셋(Track 3)에서 평가되었습니다. 이 46개의 카메라 스트림 중 40개는 모델 학습과 검증에 사용되었고, 나머지 6개는 모델 테스트에 활용되었습니다. 제안된 프레임워크는 IDF1 점수 0.8289, 정밀도 0.9026, 재현율 0.8527의 경쟁력 있는 성능을 달성하여 견고하고 정확한 차량 추적에서의 효과를 입증했습니다.