(資料圖)
OpenAI發布語音模型GPT-realtime。GPT-realtime是一個專用于語音AIAgent的多模態模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調、情感以及語速,支持圖像理解并將其與語音或文本對話相結合使用,非常適用于客服、教育、金融、醫療等領域打造語音智能體。GPT-realtime還新增了Marin與Cedar兩種極具特色的語音,同時對原有的8種語音也進行了全面升級。
與傳統純語音模型不同的是,GPT-realtime還具備智力、推理和理解能力,例如,能夠敏銳捕捉笑聲等非語言信號,在句子中間自如地切換語言,并根據場景需求靈活調整語氣。根據評估數據顯示,在多種語言環境下,GPT-realtime對字母數字序列的檢測準確率大幅提升,在用于衡量推理能力的BigBenchAudio評估中,準確率高達82.8%成為目前最強智能語音模型。