音声変換入門 Pythonで作って学ぶボイスチェンジャー
購入済み
シリーズ
全1冊
作品情報
音響学・機械学習の基礎から積み上げ、Diffusion Transformerによる音声変換の実装まで至る。基礎から最先端まで一気通貫に解説!《目次》[第1部 統計的機械学習に基づく音声言語情報処理]第1章 音声言語情報処理1.1 音声言語情報処理とは何か1.2 人間の音声生成1.3 人間の音知覚1.4 音声言語データの特徴抽出第2章 統計的機械学習2.1 音声から何かを学習するということ2.2 統計的機械学習の手引き2.3 分類タスク2.4 回帰タスク第3章 深層ニューラルネットワークの基礎3.1 単純パーセプトロンから多層パーセプトロンへ3.2 多層パーセプトロンからDNNへ3.3 深層生成モデル第4章 実践して学ぶ音声言語情報処理4.1 Google ColabolatoryでのPythonプログラミング4.2 多話者音声コーパスのダウンロードと分析4.3 PyTorchでの深層学習実装[第2部 統計的音声変換の基礎と応用]第5章 深層学習による音声変換の基礎5.1 音声変換の定義と分類5.2 作って学ぶ深層学習によるパラレル音声変換5.3 作って学ぶ深層学習によるノンパラレル音声変換第6章 音声変換を取り巻く技術と社会的側面6.1 処理タイミングによる音声変換の分類6.2 変換対象話者の指定方法による音声変換の分類6.3 変換先話者の学習データ量による分類6.4 社会への影響6.5 法的な視点第7章 正規化フローに基づく音声変換7.1 FreeVCの概要と特徴7.2 FreeVCのアーキテクチャ7.3 事前エンコーダ7.4 事後エンコーダと潜在変数zの推定7.5 デコーダと波形出力7.6 話者エンコーダ7.7 音声変換モデル全体7.8 識別器7.9 スペクトログラムリサイズによるデータ拡張7.10 訓練手順と損失関数7.11 推論時の流れ第8章 拡散モデルに基づく音声変換モデル8.1 ゼロショット音声変換8.2 SeedVCの特徴と強み8.3 拡散トランスフォーマー8.4 フローマッチング8.5 SeedVCの学習と推論
- 著者
- 出版社 講談社
- ジャンル
- レーベル KS情報科学専門書
- シリーズ 音声変換入門 Pythonで作って学ぶボイスチェンジャー
- 電子版配信開始日 2026/04/23
- ファイルサイズ - MB