アニメ動画ファンブログ

ベタですが『アニメ動画ファンブログ』というサイトをつくりました。

VOD Fan Blog

code

OpenAI最新モデル (o3, o4 mini) の実践的評価:マルチモーダル能力とエージェント性の検証

はじめに

OpenAIより最近リリースされた新たな言語モデル、特にo3およびo4 miniは、その機能向上において大きな注目を集めています。本記事では、これらの最新モデルの実際の性能を、Google Gemini 2.5 ProやClaude 3.5 Sonnetといった他の主要モデルと比較しながら、実演を交えて評価します。特に、マルチモーダル機能の進化、AIエージェントとしての振る舞い、および特定のタスク(コーディング、文章生成など)における能力に焦点を当て、その実力を探ります。

モデル概要とアクセス

OpenAIのモデルラインナップは進化を続けており、今回のリリースによりo3とo4 miniが加わりました。従来のGPT-4やGPT-4.5、そしてかつて存在したo1 Proといったモデルとの位置付けが変化しています。Proプランの環境では、これらの新モデルが利用可能ですが、アクセスにはプランによる制限があるようです(無料ユーザーは利用不可、Plusユーザーは利用制限あり)。特にo3は、従来のo1 Proなどが持っていた制限(Web検索、ファイル添付の制約など)が大きく緩和され、マルチモーダル機能が強化されている点が特徴として挙げられます。

マルチモーダル能力とエージェント性の兆候

o3の最も顕著な進化の一つは、そのマルチモーダル能力の向上と、タスク実行におけるエージェント的な振る舞いです。従来のモデルが単一の入力に対して単一の出力を返す傾向が強かったのに対し、o3はより複雑な要求に対して、複数のステップ(例:情報検索、データ分析、結果生成)を自律的に計画・実行しようとします。

実演1:データリサーチとグラフ作成

日本の総人口推移に関するグラフ作成を指示した際、o3はまずWeb検索による情報収集を試み、そのデータに基づいてグラフを生成するプロセスを実行しました。これは、ユーザーの要望を解釈し、それを達成するための具体的なステップを内部で組み立て、実行に移すという、まさにAIエージェントの基本的な挙動を示しています。この計画的かつ段階的な処理は、従来のモデルでは見られなかったものであり、筆者としては「見ていて安心できる」ほど論理的であると感じました。

画像分析能力の実演

o3のマルチモーダル能力の中でも特に注目されるのが、画像分析の精度です。

実演2:画像からの位置特定

素材サイトから取得した場所不明の画像を提示し、その場所を特定するよう指示したところ、o3は画像の詳細な視覚分析を行い、「バリにある典型的なカフェ」である可能性を示唆しました。これが正確であるかは不明ですが、SNS上での報告を見ても、o3が画像から非常に高い精度で文脈や場所を特定できる事例が多く見られます。この能力は、単なる物体認識を超えた推論を伴うものであり、今後様々な応用が期待されます。

コーディング能力の比較評価

汎用AIモデルの重要な評価点であるコーディング能力について、o3およびo4 miniをClaude 3.5 Sonnetと比較検証しました。

実演3:簡単なゲーム(ぷよぷよ)のコーディング 実演4:Webサイトのコーディング

ブラウザで動作する「ぷよぷよ」ゲームの作成、および公式サイトのHTML/CSSコーディングを依頼しました。その結果、o3およびo4 miniの出力は、動作やコードの洗練度においてClaude 3.5 Sonnetに劣るという評価になりました。特にぷよぷよのような複雑なゲームロジック(連鎖、分離など)を含むタスクでは、Claude 3.5 Sonnetの方がより完成度や機能性の高いコードを生成する傾向が見られました。ClaudeのArtifacts機能のように、コードのインタラクションや実行がしやすい点も、コーディングにおいては有利に働きます。

文章生成能力の比較評価

ブログ記事の執筆というタスクを通じて、o3の文章生成能力を評価し、Google Gemini 2.5 Proと比較しました。

実演6:SEOを意識したブログ記事の執筆

「Chat GPT 始め方」というキーワードで、SEO上位表示を目指せるブログ記事の執筆を依頼しました。o3が生成した記事は、見出し構成や基本的な内容は含まれていましたが、SEO観点での網羅性やコンテンツの深さにおいて、物足りなさを感じました。比較したGoogle Gemini 2.5 Proは、より詳細かつ構造化された、長い記事を生成し、筆者としてはGemini 2.5 Proの方が圧倒的に優れているという評価に至りました。さらに、過去に使用していたo1 Proの方が、純粋な文章生成においてはより良いと感じる場面もありました。

複数モダリティを組み合わせたタスク

o3は、単に複数のモダリティを扱えるだけでなく、それらを組み合わせたタスク実行にも対応しようとします。

実演5:文章作成と図解生成の組み合わせ

「OpenAIの創業から現在までのストーリーを、図解を使って分かりやすく説明する」という、文章と図解生成を組み合わせたタスクを依頼しました。初期の試みでは意図しない出力(グラフ)が得られましたが、o3は一つのプロンプト内でテキストと画像の生成を組み合わせる可能性を示しており、これは従来のモデルでは個別の指示が必要だった点と比較すると、ワークフローの改善につながる可能性があります。

まとめと考察

今回の実践的な検証を通じて、OpenAIの最新モデルであるo3およびo4 miniの特性が明らかになりました。

  • o3の強み:
    • 顕著に向上したマルチモーダル能力(Web検索、ファイル添付、画像分析など)。
    • タスク実行におけるエージェント的な計画・実行能力の萌芽。
    • 特に画像分析の精度は高く、実用的な応用が期待できるユニークな能力。
  • o3/o4 miniの課題:
    • コーディング能力はClaude 3.5 Sonnetと比較して劣る傾向が見られる。
    • 文章生成能力はGoogle Gemini 2.5 Proと比較して劣る可能性があり、SEO観点などでは改善の余地がある。
    • OpenAIのモデル全体の命名規則は引き続き理解が困難である。

現状の評価としては、「適材適所」という言葉が適切でしょう。画像分析や、複数のステップを跨ぐ自律的なタスク実行を試みる際にはo3が強力な選択肢となります。しかし、高品質なコーディングや、SEOに強く、より深みのある文章生成を求める場合は、それぞれClaude 3.5 SonnetやGoogle Gemini 2.5 Proといった他のモデルの方が優れている場面がまだ多く存在します。

AIモデルの進化は急速であり、今後も各モデルの得意分野は変化していく可能性があります。ユーザーは自身の目的やタスクに応じて、最適なモデルを選択することが重要となるでしょう。

チームの秘密のイースターエッグ

このページにはイースターエッグが隠されています。特定のキーの組み合わせを押すと、何か楽しいことが起こります!

ヒント: ↑↑↓↓←→←→BA を順番に押してみてください。

通常の作業をしながら、特殊なキーの組み合わせを試してみましょう。チームメンバーに教えてあげると、きっと笑顔になりますよ!

コメント