.png)
こんにちは!AIサービス開発室の鈴木生雄です。生成AIの勢いが止まりませんね。2000年代初頭にインターネット・ブームが巻き起こりましたが、私は当時をギリギリ体感している世代なので、2回も同じような熱狂を味わえるなんて本当に幸運だと思っています。いろんな会社が日々新しい技術やサービスを発表しているので、ぼーっとしている暇は本当にありません。そんな中、(一社)日本ディープラーニング協会がGenerative AI Testというミニテストをやっていることを知ったので興味本位で受けてみました。結果は無事合格でした。毎日、何時間もニュースを読んだり、サービスを試したりしているので、テスト向けにはNO勉でも問題ありませんでした。生成AIの基礎とトレンドをバランスよく問う試験だと思ったので、生成AI活用の入門にはちょうど良いかもしれません。
さて、今回はショート動画生成ツールをバイブコーディングで開発し始めたという話をお届けします。実は私、1ヶ月くらいMulmoCastやVeo3等のツールを使って生成AIで動画をたくさん作ってきました。YouTubeには現時点で150本動画をアップロード済、近いうちにそのエピソードもブログで投稿したいと思います。一方で、バイブコーディングにもずっと注目してきました。
バイブコーディングとは、AIエージェントを活用してソフトウェア開発を行う新しい手法のことです。開発者は、具体的な仕様書や詳細な指示を与える代わりに、自然言語で「こんな感じのアプリが作りたい」といった「雰囲気」や「ノリ」をAIに伝え、AIがコードを生成し、アプリケーションを構築します。
引用元:Googleサーチ AIによる概要
バイブコーディングのムーブメントは非常に大きく、フロンティアモデルの開発企業からバイブコーディングを実現するツールが続々とリリースされています。具体的には、2025年5月にOpenAIのCodexとAnthropicのClaude Code、6月にGoogleのGemini CLIがリリース済、そして、xAIは7月に、コーディングモデルの8月リリースを含むGrok 4のロードマップを発表しています。
動画生成とバイブコーディング、ブログのネタとしてはどちらも大きなテーマなので、今回は前編(動画生成)、後編(バイブコーディング)という構成で分けて投稿させてもらおうと思います。ご了承ください。
Veo 3の衝撃
Veo 3は2025年5月にGoogle I/Oで発表された最新の動画生成AIモデルです。私はこの発表をみて衝撃を受けました。なぜなら、Veo 3はテキストから映像を生成するだけでなく、音声(環境音・効果音・セリフ)も同時に生成するという点で唯一だからです。この点、内部の仕組みに関する情報は全て公開されているわけではないのですが、ChatGPTとGeminiの両方でDeepResearchしてみた結果をみるに、映像と音声を同時に生成するモデルである可能性は高いと判断しました。
Google Veo 3による動画・音声同時生成の研究 – ChatGPT DeepResearch
Veo3の動画・音声生成の仕組み – Gemini DeepResearch
さらに、7月11日には、テキストからだけでなく、テキスト+画像から動画を生成できる機能がVeo 3に追加されました。以下は、当社のHPに掲載している写真と“この人物が「今日も明るく楽しく元気よくやっていきましょう!」語り、最後にこぶしを突き上げる動画を作成してください。” というプロンプトで生成した動画です。
セリフが英語になっているところは玉に瑕ですが、映像とセリフは自然に調和している仕上がりにとても感心しました。セリフの多言語対応もおそらくは時間の問題でしょう。
Veo 3の難点
私は、おそらくはVeo 3を触った多くの人が思うのと同じように、Veo 3でショート動画を作成してTikTokやYouTube、Instagramにアップしたいと考えました。しかし、いざそれをやろうとすると難点があることに気づきました。それは、価格と選べるアスペクト比の二つです。
価格が高い
Veo 3はとても高いです。Proプランだと月額2,900円で10本、Ultraプランでも月額36,400円で125本しか作れません。あくまで趣味とはいえ、収益化も見込めないショート動画を作るのにこれほどのお金は払えません。
Google AI Proプラン 月額2,900円で、Veo 3の機能を一部利用できます。月に10本までの動画生成が可能です。
Google AI Ultraプラン 月額36,400円で、Veo 3の全機能を利用できます。月に125本までの動画生成が可能です。
(引用元)Gemini 回答より抜粋
アスペクト比が限られる
Veo 3はアスペクト比16:9の動画しか生成できません。これは、私がいろんなプロンプトを入れて試した結果です。できるかもしれませんが、少なくとも16:9以外の動画を作成できるという公式ソースは見つけられませんでした。ショート動画は縦型が主流ですので、9:16の動画を生成できないと厳しいのですよね。
開発したいもの
というわけで、安価に縦型(9:16)の音声付動画を生成するツールを作ろうと思い立ちました。映像と音声を同時に生成するOSSはまだなさそうなので、今回は音なし映像を作る工程と映像に音声を付ける工程をつなげる、いわばパイプライン型のアーキテクチャで作ってみることにします。以上から導き出した各工程を担うAIの要件は以下のとおりです。
映像作成工程を担うAIの要件
- 安価
- 縦型(9:16)に対応
音声付加工程を担うAIの要件
- 安価
- 動画に合わせた音声を付けられる
そして、(結論だけ言いますことご容赦)これらの要件を満たすAIモデルとして、SeedanceとMMAudioを使ってみることにしました。SeedanceとMMAudioの極簡単な説明(ChatGPT著)は以下のとおりです。
SeedanceはByteDanceが公開したT2V/I2Vモデル。5〜10秒動画を最大720pで生成(※Seedance-1-liteの場合)し、多彩なスタイル・マルチショットに対応、動きとプロンプト忠実度が高い。
MMAudioは映像を入力すると内容や動きに合わせた環境音・効果音を高忠実度で合成し、フレームと同期させて出力するVideo‑to‑Audioモデル。無音動画の音付けやゲーム音響制作に活用できる。
ちなみにSeedanceの方はすでに試してみましたが、期待通りの動きでしたし、5秒の720p動画1本あたり$0.18(≒26円)と価格は安価でした。MMAudioの方はまだ試していませんが、音響と言えばのSONYが開発していますし、当ブログでも取り上げたCVPR2025に論文が採択されていることからきっと有望な技術なのだろうと期待しています。
MMAudioの参考資料:
Unlocking the Future of Video-to-Audio Synthesis: Inside the MMAudio Model – SONY AI
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis – CVPR 2025
わかっているけど自分で作ってみたい
実はこれまで書いてきた内容にはオチがあります。
YouTubeが2025年夏後半に動画生成AI「Veo 3」をYouTubeショートに統合、YouTubeショートの1日平均動画再生数は2000億回に到達 – GIGAZINE
↑の記事が示すように、GoogleはVeo 3をYouTubeショートに統合する予定だそうです。どの程度、手軽に使えるのかは分かりませんが、利用が拡大するに連れて、便利かつ安価になっていく可能性は高いと思います。つまり、私が作ろうとしているツールは賞味期限が短いということです。
でもよいのです。バイブコーディングのスタイルで自分で作ってみたいのだから問題はありません。バイブコーディングは始めたところなので、まだ評価はできませんが、第一印象としてはとても楽しいです。
次回はバイブコーディングをテーマの中心にして「ショート動画生成ツールをバイコーディングで開発し始めました(後編)」をお届けする予定です。どうぞお楽しみに!