2024年12月17日 09:55

mocomocoは、高性能音声認識AI「mocoVoice API」に話者分離機能を追加した。

高性能音声認識AI「mocoVoice API」は、音声認識業界の最高性能を誇るOpenAI Whisperをベースにし、mocomoco独自の辞書アルゴリズムと高速化技術を兼ね備えている。複数人が参加する会議や対話において、「誰が発言したのか」を正確に把握することは、情報共有や議事録作成の効率化において重要な課題だった。従来の書き起こしでは、話者が特定されないために作業負担が増大し、コミュニケーションの正確性が損なわれるケースも少なくなかった。これらの課題を解決するため、mocomocoでは高速かつ正確に話者を分離できる「mocoVoice API」の話者分離機能を開発した。

話者分離機能により、複数人での会話や会議の音声データを、個別の話者ごとに分離して書き起こすことが可能だ。新機能の特徴は、「高性能な話者分離」(複数人の書き起こしでも、「誰が」「何を」話したかがわかる)、「高速な話者分離」(話者分離機能が追加されても、書き起こし速度は以前と同じ最速1時間の音声を3分で書き起こせる)、「多言語対応」(日本語と英語が混在する会話でも、高精度で話者分離が行える)。

話者分離機能は追加費用なしですべてのプランに含まれている。

「mocoVoice API」利用申請フォーム