こんにちわ!もへろーです!
皆さん!Open AI が発表した動画生成AI..Soraの映像はもうご覧になられましたか??
まだ見てないよー!って方いらっしゃいましたら、まずは是非一度以下からご覧になってみてください。
Soraによりテキストから生成された東京の街を歩く女性の動画です。
いかがですか?多少の違和感はあれど、これまでの動画生成AIとは明らかに一線を画したクオリティと称して過言はないでしょう。
本記事では話題沸騰中の「Sora」の何が凄いのか?その魅力を徹底紹介して参ります。
■SoraはOpen AI社が今後公開を予定している動画生成AIです!
■最長1分までの動画を破綻なく生成できるポテンシャルを秘めているとして、注目を集めています!
■Soraの特色として詳細なシーンの映像や、複雑なカメラモーション、複数の人物の生成に対応し、クオリティが既存の動画生成AIよりも格段に向上しています!
昨年、ChatGPTで話題をさらったOpen AI社より、2024年2月15日(現地時間)に発表された動画生成AIです。
動画生成AI自体は既に珍しい物ではなく、例えばRunwayやPika Labs等のツールは既に一定数のユーザがいますし、最近だとGoogle社からも今後 Lumiere を公開すると発表がありました。
では何故Soraはこれほどまでに話題をさらっているのか?要点は以下の3つです!
■最長1分までの動画を破綻なく生成可能なポテンシャルの高さ。
■詳細なシーンの映像や、複雑なカメラモーション、複数の人物の生成に対応している。
■プロンプトに対する理解が深く、忠実に再現されている。
Soraは現在まだテスト段階で、正確なリリース日は発表されておりません。
■Soraの映像は以下のOpen AI社の公式HPからチェックができます!
Open AI社の公式HPに沢山アップロードされていますが、いくつか私の方でピックアップさせて頂いた映像を以下に掲載させて頂きます。
「まばたき」の精度も凄まじいですね。従来の動画生成AIツールでは、どうしたら自然にまばたきをさせられるかあれやこれやと様々な試行錯誤が繰り広げられていましたが、そんなものはもはや過去の話であると言わんばかりの自然なまばたき…。
この映像はもはや違和感が全く仕事していないですね!実写だと言われれば信じてしまうレベルの自然さでAI技術の進歩の速さを感じさせます。
ピクサーの映画に出てきそうな質感…!実写以外の映像もこのようにプロンプトで的確に指示すれば生成が可能です。
いずれの映像も比較的長いプロンプトを元にした生成結果ですが、指示に対する忠実度の高さがうかがえます。
以下のアカウントにて、公式HPにはSoraの動画も公開されているので、是非チェック頂けると幸いです。
改めて冒頭のこちらの動画をベースに、Soraを深掘りして要チェックポイントをまとめて紹介していきたいと思います!
「1分」の動画が出来るって何が凄いの?って動画生成AIをまだ使った事がない方には思われてしまいそうですね。
実は昨今、何かと世間を賑わすAIにおいても動画生成の分野はまだまだ発展途上で、既存のツールだと生成できる動画はRunway Gen-2の16秒位が最大値になります。
その16秒の内、動画が破綻(人が崩れる、映像がグチャグチャになる)なく生成できるのは長くても4~5秒が限界でしょう。
そうした現状に対して、Soraでは最長で1分までの動画生成が可能と言うのは物凄い技術革新であると言えます。
しかも既にご覧頂いた通り、Soraの動画は小さな違和感はあれど、映像として大きな破綻がございません。
Text to Video(テキストからビデオ)はその名の通り、文字で映像の詳細を指定していきます。
通常、この映像の詳細を指定する文字を「プロンプト」と呼びますが、Soraではこのプロンプトに対する忠実度が圧倒的に高いです。
黄色が情景、赤がメインの人物、緑と青が細かい指定となりますが、いずれのポイントもキチンと漏れなく抑えた映像になっていると思います。
また、複数の歩行者の自然さも段違いです。
そもそも、既存の動画生成AIは複数の人物を登場させるような動画をまともに作る事自体がまだまだ難しいと感じていましたが、Soraにおいては各々歩くペースも方向もバラバラな歩行者が当たり前の様に生成されています。
複数人の人物が映る動画としては、以下の動画も凄いと思いました。
左側は流れに沿って歩いている人々、右側には様子を見守る人々が各々、一部はスマフォの様な物を手に持っているような様子もうかがえます。
また動画に限らず、生成AIでは細かい指定は無視される傾向もあるのですが「通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。」と言った細かい指定もSoraは逃さずに映像内に反映されている様子がうかがえます。
動画の後半部分に至っては、なんと女性がかけているサングラスに反射した先の風景まで捉えられている様子が確認できました!
圧倒的なクオリティを誇るSoraと言えど、勿論完璧でございません。
例えば看板の文字はグチャグチャだったりしますが、特に日本語への対応は当面は難しいかもしれません。
恐らくですが、英語であればもっときちんと生成されるのではないかなと思います。
他の生成AIを見てみても私が知る限り、日本語の出力に対応しているのは画像生成AIのMidjourney(Niji Ver.6)の一部のVersionのみです。日本語って漢字も平仮名もカタカナもあるし、複雑ですもんね…。
後はまだ細かい矛盾はどうしても発生してしまうようです。
例えば冒頭部分の女性の服の胸元には特段、模様の様な物は確認できませんが、
動画の後半部分には謎の黒い模様が追加されています。
一番最後の場面でも前半部分で手に持っていたバッグが消失し、ポケットに手を入れている様です。
あと、レジャージャケットの襟の部分が異常に肥大化してますね。
まだリリース前のSoraですが、実はOpenAIの公式HPからいち早く体験する事ができます!
テクニカルレポートのページより、少し下の方へスクロールをしていくと以下にような表示が出てきます。
上記にて、左側のプロンプトにいくつかのプリセットの候補が出てきます!
最後までご覧になって頂きありがとうございます!
■SoraはOpen AI社が今後公開を予定している動画生成AIです!
■最長1分までの動画を破綻なく生成できるポテンシャルを秘めているとして、注目を集めています!
■Soraの特色として詳細なシーンの映像や、複雑なカメラモーション、複数の人物の生成に対応し、クオリティが既存の動画生成AIよりも格段に向上しています!
後から見直したい方は是非、ブックマークに登録を頂けると幸いです。
本ブログでは様々なAIに関する記事を公開させて頂いております。
良かったら他の記事もご覧になって頂けると幸いです。
主にAIやNFTに関する活用を紹介するブログを書いています。
Xで発信もしているので、良かったらフォロー頂けると嬉しいです。アカウントはこちらから!