今までで最も使えるテキスト文字起こし環境が実現(しかも無料)

Word と Copilot を組み合わせて音声ファイルから文字起こしをできると知ったので試してみましたが、自分が契約している Microsoft365 では条件を満たしておらず使えませんでした。他にテキスト起こしの方法がないか ChatGPT に訪ねたところ、Open AI の Whisper をローカルで実行する方法に行き当たりました。

(本当は Whisper をブラウザで実行する方法もあるものの、現時点ではエラーになったため使えず。)

コマンドラインに不慣れな方にはお勧めできませんが、出力結果はこれまで(有償のも含めて)使ったことがある文字起こしソフトなどと比べて格段に良く、打合せの録音をテキスト化するなど仕事で十分使えるレベルで、大変助かります。出力されるテキストファイルにも細かくタイムスタンプが入っていて便利。

以下、自分用のメモ。なお macOS Sequoia 15.5 です。

 

インストール方法

1) FFmpeg と Python をインストールする(これは既にインストールされてた)

2) 仮想環境を作成する

python3 -m venv whisper-env
source whisper-env/bin/activate

3) pip をアップグレードする

pip install --upgrade pip

4) Whisper をインストールする

pip install git+https://github.com/openai/whisper.git

 

使用方法

python3 -m venv whisper-env

source whisper-env/bin/activate (仮想環境に入る)

whisper (音声ファイル名) --language Japanese --model medium

 

作業終了後に deactivate で仮想環境から抜ける。

 


このエントリーをはてなブックマークに追加