OpenAI, 소리와 화상, 문자 주고받으며 더 사람같아진 GPT-4o 발표

#소프트웨어#앱#서비스

OpenAI, 소리와 화상, 문자 주고받으며 더 사람같아진 GPT-4o 발표

늑돌이 2024. 5. 14. 07:11

OpenAI에서 보고 듣고 말하는 더 진보된 AI 모델인 GPT-4o를 발표했습니다.

GPT-4o의 o는 옴니(omni)를 뜻하는데, 사람과 컴퓨터의 더 자연스러운 상호작용을 위해 만들어졌습니다. 문자와 소리, 이미지의 조합을 입력으로 받아들일 수 있으며 반대로 이들을 출력할 수 있습니다. 사람과 비슷한 수준인 최소 232밀리초, 평균 320밀리초 만에 오디오 입력에 응답할 수 있습니다..

GPT-4o는 특히 기존 모델에 비해 시각 및 오디오 이해 능력이 뛰어납니다.

소리-문장 변환과 그 문장의 입출력이 세개의 파이프라인으로 나뉘었던 이전의 음성 모드와는 달리 GPT-4o는 모든 입력과 출력을 동일한 신경망으로 처리할 수 있게 되었습니다. 이 때문에 GPT-4o는 그 전에는 안 되었던 말하는 이의 음성 톤과 그 숫자, 또는 배경 소음 등을 입력받을 수 있고, 출력 면에서도 웃음이나 노래, 감정 표현을 출력할 수 있습니다.

GPT-4o의 발표 라이브 영상. 여러가지 특징을 볼 수 있습니다.

요약하면, GPT-4o 모델의 AI는 상대를 직접 보고 듣고 더 다양한 방법으로 응대할 수 있게 되었습니다.

성능 면에서 GPT-4o는 기존 벤치마크 기준으로 텍스트, 추론 및 코딩 인텔리전스에서 GPT-4 Turbo 수준의 성능을 달성했습니다. 그리고 다국어, 오디오 및 시각 기능에서 신기록을 냈습니다.

영어 텍스트 및 코드에 대한 GPT-4 Turbo의 성능과 비슷하며, 비영어권 언어의 문장 관련 성능이 크게 향상되는 동시에 API에서 훨씬 빠르고 50% 더 저렴하게 이용 가능합니다

GPT-4o의 텍스트 및 이미지 기능은 오늘부터 ChatGPT에서 쓸 수 있으며, 무료 이용자는 물론이고 최대 5배 더 높은 메시지 한도를 가진 ChatGPT 플러스 사용자들에게도 GPT-4o가 제공됩니다. 몇 주 안에 ChatGPT Plus에 GPT-4o가 포함된 새로운 버전의 음성 모드를 알파 버전으로 출시할 예정입니다.

개발자는 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수 있습니다. GPT-4o는 GPT-4 Turbo에 비해 속도가 2배 빠르고 가격은 절반이며 속도 제한은 5배 더 높습니다. 몇 주 안에 API에서 소수의 파트너 그룹을 대상으로 GPT-4o의 새로운 오디오 및 비디오 기능에 대한 지원을 시작합니다.

이곳에서 이번 GPT-4o의 더 자세한 내용과 시연 영상을 볼 수 있습니다. 꼭 한번 살펴보시면 좋겠네요.

(출처 : OpenAI)

저작자표시 비영리 변경금지