技術書をポッドキャスト風音声に変換するNode.jsアプリケーション「TechTalkCast」を作成した

はじめに

技術書を読む時間がない自分のために、ePubファイルをポッドキャスト風の自然な音声コンテンツに変換するNode.jsアプリケーション「TechTalkCast」を作成した。

リンク

アプリケーションの概要

TechTalkCastは以下の3つのステップで技術書をポッドキャストに変換する

ePub → テキスト: ePubファイルから章ごとにテキストを抽出
テキスト → 会話調テキスト: ChatGPT APIを使用して技術的内容をフランクな会話調に変換
テキスト → 音声: macOSのsayコマンドとffmpegを使用してMP3/M4A形式の音声ファイルを生成

技術スタック

言語: TypeScript
実行環境: Node.js
音声合成: macOS say command + ffmpeg
AI変換: OpenAI GPT-4.1 mini
ファイル解析: epub2 (npm package)
RSS生成: 自作RSSジェネレーター

主な機能

ePubファイルの解析と前処理

// ePubファイルからの章抽出
hasHeadingTags(content: string): boolean {
    const h1Match = /<h1[^>]*>/i.test(content);
    const h2Match = /<h2[^>]*>/i.test(content);
    const h3Match = /<h3[^>]*>/i.test(content);
    return h1Match || h2Match || h3Match;
}

h1/h2/h3タグを含まない著作権ページや目次ページは自動的に除外
章ごとにテキストファイルとして出力

ChatGPT APIによる会話調変換

private defaultModel = 'gpt-4.1-mini';
private defaultMaxLength = 500000; // 50万文字まで処理可能

GPT-4.1 miniを使用してコストを削減（1冊約40円）
100万トークンのコンテキストウィンドウで長い章も分割せずに処理
技術的内容を「だ・である調」からフランクな「〜なんだよね」調に変換

プロンプト設計の工夫

- フランクで親しみやすい口調にしてください（例：「〜なんだよね」「って話」など）
- **絶対に敬語は使わないでください**（「〜です」「〜ます」「〜してください」は禁止）
- **一人称は「僕」で統一してください**
- **ソースコードは絶対に出力しないでください**（コードブロックや具体的なコードは一切禁止）
- コードの説明が必要な場合は「このコードは〜という処理をしている」のように概念的に説明してください

チャプター付きM4A音声の生成

// チャプター情報の埋め込み
chapters.forEach((chapter, index) => {
    const startMs = Math.floor(chapter.startTime * 1000);
    const endMs = Math.floor((chapter.startTime + chapter.duration) * 1000);
    metadataContent += `[CHAPTER]\n`;
    metadataContent += `TIMEBASE=1/1000\n`;
    metadataContent += `START=${startMs}\n`;
    metadataContent += `END=${endMs}\n`;
    metadataContent += `title=${chapter.title}\n\n`;
});

ffmpegを使用してチャプター情報をM4Aファイルに埋め込み
Podcast アプリやQuickTime Playerで章ごとのナビゲーションが可能

工夫した点

API コストの最適化

GPT-4o（$5/1M入力）からGPT-4.1 mini（$0.40/1M入力）に変更
1冊あたりの変換コストを約450円から約40円に削減（約90%削減）
Batch APIを使用すればさらに50%削減可能

ファイル名のスペース問題の解決

並列処理でスペースを含むファイル名がシェルコマンドでエラーを起こす問題を解決

// 修正前（エラーの原因）
const tempTextFile = `${outputFile}.temp.txt`;

// 修正後（スペースを含まない固定ファイル名）
const tempTextFile = path.join(path.dirname(outputFile), 'combined_temp.txt');

コンテンツの品質向上

ソースコードの自動除去により音声での聞きやすさを向上
敬語から会話調への変換で親しみやすい雰囲気を実現
接続詞のバリエーション（「さて」「続いては」「それでは」など）で単調さを回避

RSS フィード生成とポッドキャスト配信対応

// S3 URLに対応したRSS生成
audioUrl: `${this.baseUrl}/audio/${fileName}`,

各書籍ごとに個別のRSSフィードを生成
S3バケットでの配信を想定したURL構造
Apple PodcastsやSpotifyでの配信に対応

コマンドライン使用例

# 基本的な変換
npm run dev -- "./books/リーダブルコード.epub"

# GPT処理をスキップ（音声生成のみ）
npm run dev -- "./books/リーダブルコード.epub" --no-gpt

# 音声ファイル結合のみ実行
npm run dev -- "./books/リーダブルコード.epub" --combine-only

出力構造

output/
├── リーダブルコード/                    # 抽出されたテキスト
│   └── 01-Chapter_Title.txt
├── リーダブルコード_narrated/           # GPT変換後テキスト
│   └── narrated_01-Chapter_Title.txt
└── リーダブルコード_audio/              # 生成された音声ファイル
    ├── 01-Chapter_Title.mp3
    ├── リーダブルコード_完全版.m4a      # チャプター付き完全版
    └── リーダブルコード.rss.xml        # RSS フィード

成果と結果

「リーダブルコード」（約24万文字）を約1時間47分の音声コンテンツに変換
変換コスト：約40円（GPT-4.1 mini使用時）
26章のチャプター付きM4Aファイルとして出力
通勤時間や移動中に技術書の内容を効率的にインプット可能

今後の展開

自動アップロード機能: S3への自動アップロードとポッドキャスト配信の自動化
多言語対応: 英語技術書の日本語変換
音声品質向上: 感情表現やイントネーションの改善
Web UI: ブラウザからの簡単操作インターフェース

LLMを活用した開発体験

このアプリケーションはClaude Code（Anthropic）を使ったライブコーディングで開発された。LLMとのペアプログラミングにより、わずか1日で完成させることができた。

開発プロセス

設計フェーズ: 要件定義からアーキテクチャ設計まで、LLMとの対話で迅速に決定
実装フェーズ: TypeScriptコードの生成、デバッグ、最適化をリアルタイムで実施
問題解決: スペース文字によるシェルコマンドエラー、チャプター情報の埋め込み問題など、複雑な技術的課題も即座に解決

従来開発との比較

従来の開発（推定）:
- 設計・調査: 2-3日
- 実装: 5-7日
- デバッグ・最適化: 2-3日
- 合計: 10-14日

LLM活用開発（実績）:
- 全工程: 1日

感想

ChatGPT APIの進化により、単なる音声読み上げではなく、実際に人が話しているような自然な会話調での技術書解説が実現できた。特にGPT-4.1 miniの登場により、コストを大幅に抑えながら高品質な変換が可能になったことは大きな成果である。

しかし、最も衝撃的だったのは開発体験そのものである。 LLMとのペアプログラミングにより、従来なら2週間かかる複雑なアプリケーションを1日で完成させることができた。これは単なる効率化を超えて、プログラミングというものの本質的な変化を示している。

従来は「コードを書く」ことに多くの時間を費やしていたが、LLM時代では「何を作るか」「どう設計するか」といった創造的思考により多くの時間を割けるようになった。エンジニアの役割は実装者から設計者・問題解決者へと大きくシフトしている。

技術書を「読む」から「聞く」へのパラダイムシフトと同様に、プログラミングも「書く」から「対話する」へのパラダイムシフトが起きている。この変化を実体験できたことは、アプリケーション開発以上に価値のある体験となった。

半年でのAIコーディングの進化

実は半年前（2024年12月）に「生成AIを活用したコーディング」という記事を書いた。たった半年で開発手法が劇的に変化したことに驚く。

半年前のAIコーディング（2024年12月）

当時の記事では、AIとのコーディングにおいて以下のような工夫が必要だった

詳細なプロンプトエンジニアリング: 箇条書きで細かく指示を出し、マークダウンで強調する必要があった
関数単位での依頼: 1つのファイルに1つの機能というように、小さな単位でしかAIに依頼できなかった
エラー時の手動対応: エラーメッセージとスタックトレースをコピペしてAIに伝える必要があった
段階的な作業: コード生成、エラー調査、テスト作成を別々のタスクとして依頼していた

現在のAIコーディング（2025年6月）

TechTalkCastの開発では、まったく異なる体験ができた

LLMとの壁打ちによる要件定義: まず「技術書をポッドキャスト風に変換したい」というアイデアをLLMと対話しながら詳細な要件定義書（マークダウン）に落とし込んだ
要件定義からの一括生成: 作成した要件定義マークダウンをそのままLLMに渡すだけで、一気に生成
プロジェクト全体の把握: AIがプロジェクト全体の構造を理解し、複数ファイルにまたがる実装を自動的に行う
自動エラー修正: エラーが発生すると、AIが自動的に原因を特定し、修正コードを生成して適用

たった半年

この変化がわずか半年で起きたことだ。半年前は「AIにどう伝えるか」に苦心していたが、現在は「何を作りたいか」を伝えるだけで、実装の詳細から問題解決まですべてAIが担当してくれる。

プログラマーの役割は「コードを書く人」から「アイデアを形にする人」へと急速に変化している。次の半年でどこまで進化するのか、非常に楽しみである。

Tetsuya Ohira's Blog