【Whisper】輕鬆搞定Podcast逐字稿

在經營 Podcast 後,才發現逐字稿其實蠻重要的。不管是整理內容、提升可讀性,還是幫忙做SEO,音檔轉文字的需求真的不少。找過幾款工具,有的不好用,有的價格太高,直到有一次發現 Whisper 這個開源工具,才終於找到方便又有效的解法。
Whisper 不僅免費,還支援多語言。以下就是試用過程的完整記錄,分享給需要的人~
Whisper 是什麼?
Whisper 是 OpenAI 推出的開源語音辨識工具,可以把音檔轉成文字,支援超過 50 種語言。這款工具是基於 68 萬小時的訓練資料,其中包含 11.7 萬小時的多語言語音數據,涵蓋了 96 種不同語言。由於資料量龐大,Whisper 在英文的識別精準度相當高,而中文的錯誤率(Word Error Rate, WER)大約是 14.7%,表現也不俗。
這樣的多語言支援,讓 Whisper 對於不同語言混雜的音檔處理特別有優勢,無論是單語還是雙語內容,都可以得到不錯的轉錄效果。此外,它完全在本地端運行,不需要將資料上傳到雲端,安全性也大幅提高。
安裝 Whisper 的步驟
其實,安裝過程真的不複雜,花個20分鐘左右就能搞定。以下是實際操作時的重點整理:
確認電腦環境
Whisper 支援 Windows、MacOS 和 Linux,只要有Python 3.8以上就OK。
安裝步驟
安裝 Whisper
pip install -U openai-whisper或者,使用以下指令從該 Github 中拉取並安裝最新的 Whisper:
pip install git+https://github.com/openai/whisper.git 如果已經安裝,想要將軟體更新至最新版本,請執行:
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git安裝 ffmpeg
它還需要 ffmpeg,這是處理音訊檔案必備的工具。大部分的套件管理器都可以下載到 ffmpeg,選擇自己使用的套件管理器來安裝即可~
# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on Arch Linux
sudo pacman -S ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg確認安裝成功
最後,輸入這行指令確認安裝成功:
whisper --help參考資料:whisper
開始 Podcast 轉文字
安裝好之後,我們馬上來試試看用 Whisper 處理一段 Podcast 音檔吧!
準備音檔
把想語音轉文字的Podcast檔案準備好,格式是 m4a 或 mp3 都可以。
執行轉檔
用指令進行轉檔:
whisper EP6.m4a --language Mandarin更多語言可以參考 👉 tokenizer.py
查看結果
Whisper 會自動生成文字檔,包含完整的逐字稿。第一次使用時,效果非常不錯呢!

使用心得和小技巧
- 選擇適合的模型:
base模型處理速度快,適合日常使用;large模型則適合需要更高準確率的情境。 - 音檔品質很關鍵:背景聲音越少,轉出來的文字越準確。如果能先簡單處理音檔雜音,後續的編輯時間會省下不少。
- 延伸應用:除了整理逐字稿,轉出的文字檔還可以直接用來寫部落格、製作摘要,甚至發簡報內容。
結語
Whisper 真的是一款很實用的工具,尤其對需要頻繁處理音檔轉文字的人來說,能省下不少時間和麻煩。從安裝到實際操作,整個過程都算順利,讓 Podcast 的內容處理更有效率,重點是它免費!推薦給資金有限的人試試~
其他好用的 Podcast 轉語音工具 👉 【CastMagic】 幫助提升 Podcast 創作與宣傳效率的 AI 工具



