EllisShang

ケーススタディ

画像から生成する AI 解説ポッドキャスト

ハッカソン開発者 & AI エンジニア · Ship It Sunday · AI Hacker House Shanghai · 2025年9月

概要

チームメイトとともに開発したハッカソンプロジェクト。画像やトピックから 2 人のバーチャル司会者による対話形式の解説ポッドキャスト動画を生成し、WAN 2.2・ElevenLabs・GPT-4o を組み合わせてアニメーションと音声を自動化。

主要技術

WAN 2.2ElevenLabsGPT-4o

成果

  • ハッカソンで6時間以内にプロトタイプを構築。
  • Alibaba の WAN 2.2 動画生成モデルを使い、画像とトピックから2人司会の解説動画を生成。

ストーリーとプロセス

このプロジェクトは、**2025年9月の Ship It Sunday ハッカソン**でチームメイトと一緒に開発したものです。

私たちは、1 枚の画像やテキストトピックから、2 人のバーチャル司会者が会話しながら解説してくれるポッドキャスト風の動画(AI 解説ビデオ)を自動生成するアプリを作りました。

### コンセプト:2 人司会の AI 解説ポッドキャスト

- ユーザーが興味のあるトピックを与えると、そのテーマについて 2 人の司会者が対話形式で語るポッドキャスト動画を生成。
- 先生と生徒(teacher–student)、友達同士(peer–peer)、あるいは対立する立場のディベート(adversarial debate)など、トピックや難易度に応じてペアの関係性を変えられる設計。
- 難しい研究内容や技術トピックを「まとめて、分解して、対話で説明する」ことを目的とした教育向けユースケースを想定しています。

対話型の学習は、理解度と記憶定着を高める有効な手段であることが分かっています。特に 2 人の司会パターンは、難しいテーマをかみ砕いて説明するのに向いていると考えました。

### なぜ 2 人の司会なのか?

- 長くて難しい資料(論文や技術ドキュメントなど)を読むのは、とても大変で退屈になりがちです。
- 1 人のナレーションだと、どうしても一方向の「講義」になりやすいです。
- 2 人の司会が会話することで、
	- 学習者が実際に抱きがちな疑問やつまずきを代弁し、
	- 質問と説明のキャッチボールを通じて理解を深め、
	- 教師–生徒、仲間同士、ディベートなど、さまざまな視点を自然に表現できます。

こうした対話型・映像付きの学習体験は、学習への没入感や満足度を高めることが期待できます。

### 使用技術とパイプライン

- **WAN 2.2**:動画生成とキャラクターアニメーション、リップシンク制御。
- **ElevenLabs**:音声クローンと音声合成を用いて、自然で一貫性のある 2 人の司会者ボイスを生成。
- **GPT-4o**:LLMとして、トピックの理解、台本の作成、難しい内容をステップごとに分解した対話に変換する役割を担当。

パイプラインとしては、画像またはテキストトピックを入力し、まず GPT-4o が 2 人の司会者による構造化された対話スクリプトを生成します。その後 ElevenLabs で 2 種類の音声を合成し、最後に WAN 2.2 で人間アバターをアニメーションさせ、リップシンクを行って解説動画を完成させます。