챗GPT(ChatGPT) 음성인식 기능 추가 | 보고 듣고 말하기

”㉾” 2023. 10. 11.

대화 기반의 인공 지능 기술은 우리 생활에 큰 변화를 가져다주고 있습니다. 이 중에서도 챗봇의 기술적 발전은 주목받을 만한 성과를 보이고 있습니다. 특별히, OpenAI의 챗GPT(ChatGPT)는 이러한 발전의 핵심 주체 중 하나로 자리매김하고 있습니다. 최근, OpenAI는 25일을 기점으로 ChatGPT에 음성 및 이미지 관련 기능을 추가한다는 소식을 알렸습니다. 이러한 기능 확장은 챗봇이 어떻게 우리의 생활과 상호작용하는지의 방식에 큰 변화를 가져올 것으로 기대됩니다.

ChatGPT can now see, hear, and speak

We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

openai.com

챗GPT 음성 및 이미지 기능 추가

챗GPT 음성 대화 기능

OpenAI는 ChatGPT 4를 발표하면서 이미지 처리와 관련된 능력을 공개했습니다. 그로 인해, 음성 인식 기능이 이어서 추가될 것이라는 예측이 강화되었습니다. OpenAI는 이미 'Whisper'라는 고급 음성 처리 기술을 보유하고 있었기에, 이런 예상은 놀랍지 않았습니다.

이로써, 사용자들은 텍스트만을 이용한 질문에서 벗어나, 음성을 활용하여 자연스럽게 대화를 나눌 수 있게 되었습니다. 추가로, 이미지를 포함시켜 더욱 상세하게 질문의 범위를 확장할 수 있게 되었습니다. 이러한 변화는 OpenAI의 ChatGPT가 제공하는 사용자 경험의 풍부함을 더욱 강조하게 됩니다.

챗GPT 텍스트 음성 변환 기능

OpenAI의 최근 기술 성과 중 하나는 Whisper라는 음성 인식 기술과 함께 나타난 최신 TTS(Text-to-Speech, 텍스트를 음성으로 변환하는 기술) 모델입니다. 이러한 진화를 통해 사용자가 말하는 내용은 Whisper에 의해 글로 표현되며, 반대로 ChatGPT가 작성한 답변은 전문적인 성우처럼 들리는 음성으로 반환됩니다. 특히, 이 혁신적인 TTS 모델은 단 몇 초 동안의 음성 샘플만을 통해 해당하는 사람의 음성 톤과 뉘앙스를 뛰어넘는 정확도로 재현할 수 있습니다. 또한, 이러한 기술의 활용 범위는 Spotify에서의 팟캐스트 언어 변환 기능과 같이, 다양한 분야에서 널리 사용되고 있어 그 가치와 중요성이 강조되고 있습니다.

모바일 애플리케이션에서 새롭게 도입된 음성 기능을 경험하시려면 설정 메뉴로 이동하여 '신규 기능 탐색'을 선택한 후 '음성 인터랙션'을 활성화하십시오. 앱 홈 화면의 상단 오른쪽에 위치한 이어폰 아이콘을 터치하면 사용자는 다섯 가지 스타일의 음성 중 마음에 드는 것을 선택할 수 있게 되었습니다. 이 고급 음성 기능은 텍스트와 간단한 음성 샘플을 활용하여 인간과 같은 품질의 오디오를 만들어내는 최신 텍스트-음성 변환 기술에 의존하고 있습니다. 이 목소리들은 OpenAI가 전문적인 성우들과 함께 작업하여 제작하였으며, 사용자가 제공하는 음성 입력은 'Whisper'라는 오픈 소스 음성 인식 툴을 사용하여 글로 바뀌게 됩니다.

챗GPT 이미지 인식 기능 추가

더불어 이미지 인식 기능도 상당히 인상적입니다. 사용자는 여러 장의 이미지를 동시에 첨부할 수 있게 되었고, ChatGPT는 그림 속의 글자뿐만 아니라 물체까지 세밀하게 파악합니다. 이 기능 덕분에 사용자는 다양한 도구나 기기의 작동 방법을 질문하거나, 냉장고에 보관된 재료를 통해 요리법에 관한 대화를 나누게 되었습니다.

이미지 관련 기능에 대해 소개드리겠습니다. 사용자는 이미지 아이콘을 터치하여 사진을 찍거나 라이브러리에서 선택할 수 있습니다. iOS나 Android 환경에서는 이 기능을 이용하기 전에 추가 아이콘을 먼저 눌러야 합니다. 이를 통해 사용자는 여러 사진에 관한 정보를 얻거나 그림 도구를 활용하여 어시스턴트에게 명확한 지시를 할 수 있습니다. 이런 이미지 분석 기능은 멀티모달(다양한 형식의 정보 처리) GPT-3.5와 GPT-4 모델로 지원됩니다. 이러한 기술은 이미지, 스크린샷 뿐만 아니라 텍스트와 함께 있는 문서까지 언어적인 해석으로 다양한 시각 자료를 분석합니다.

개인적으로, 음성인식 기술이 가상의 AI 비서에 통합됨으로써, 사용자와의 자연스러운 상호작용이 가능해질 것이라고 생각합니다. 이를 통해, 기존의 텍스트 기반 상호작용에서 벗어나, 더욱 다양한 방식으로 정보를 제공하거나, 명령을 수행할 수 있게 될 것입니다. 그러나, 이러한 기술의 발전과 확산에 따라, 개인정보 보호와 관련된 이슈, 그리고 기술의 부정활용과 관련된 문제도 함께 고려되어야 할 것이라고 생각합니다.

'AI' 카테고리의 다른 글

챗GPT 같은 생성형 AI 대규모 언어 모델(LLM) 서비스 종류 (0)	2023.11.23
일론 머스크 xAi 그록(Grok) 챗봇 개발 및 테스트 (0)	2023.11.05