GPT-5.5が示すAIエージェント化とAPIコストの転換点

GPT-5.5 is OpenAI’s most capable agentic AI model yet

【この記事の注目ポイント】

  • GPT-5.5は4月23日に公開され、API価格は入力100万トークン5ドル、出力100万トークン30ドルで、GPT-5.4の2倍になりました
  • Terminal-Bench 2.0で82.7%を記録し、単発の会話AIではなく、実務を回すエージェント基盤としての評価が前面に出ました
  • 日本企業は、精度だけでなく再試行回数と総コストを含めて、導入モデルを選ぶ局面に入りました
目次

会話AIから業務実行AIへ移る局面

あなたの会社でも、AIに「案を出す」だけではなく、「調べて、判断材料をまとめて、次の操作まで進めてほしい」と感じる場面はないでしょうか。営業資料の下書き、障害対応の切り分け、社内申請の一次判定のような仕事では、1回の回答精度よりも、複数の手順を自律的に進められるかが重要になります。OpenAIがGPT-5.5を「real work and powering agents」のための新しい知能と位置づけたのは、この現場感を正面から捉えた動きです。

私がこの記事を読んで強く感じたのは、AIの競争軸が「賢い1往復の会話」から「長い業務フローを崩さずに回す力」へ移ったことです。これは単なるモデル更新ではなく、導入部門の評価軸そのものを変えます。たとえば、これまでの生成AIは人が途中で確認し、修正し、再投入する前提でした。しかしGPT-5.5は、計画、ツール利用、自己検証までを最初から設計に含めています。つまり、AIを“補助輪”として使う段階から、“実行役”として扱う段階へ進んだわけです。

Terminal-Bench 2.0で82.7%を記録した意味

GPT-5.5の強みは、OpenAIが示したベンチマークに表れています。Terminal-Bench 2.0では82.7%を記録し、GPT-5.4の75.1%、Claude Opus 4.7の69.4%を上回りました。ここでの82.7%は、コマンドライン上のワークフローをどれだけ計画的に進められるかを示す数値であり、単なる文章生成能力ではありません。要するに、ターミナル操作を伴う自動化、DevOps、運用補助のような領域で、AIが人の手順をそのまま代替する力を意味します。

さらにSWE-Bench Proでは58.6%を記録し、GitHub上の課題解決を1回の試行で進める能力を高めました。58.6%という数字は、開発補助が「提案止まり」ではなく、実際の修正作業に踏み込みやすくなったことを示します。加えて、OpenAI内部のExpert-SWEでは73.1%を出しており、中央値で人間20時間分と見積もられるタスクを扱う設計が進んでいます。20時間というのは、長い調査や複数ファイル修正を含む中規模案件を意味し、ここをAIがどこまで肩代わりするかが焦点です。

一方で完全勝利ではありません。MCP AtlasではClaude Opus 4.7が79.1%で先行し、GPT-5.5のスコアは示されていません。MCPはModel Context Protocolの略で、外部ツール接続の標準規格です。ここでOpenAIが空欄を含めて提示した事実は重要で、同社が万能性ではなく、強みと弱みを分けて市場に出していることを示します。私はこの姿勢をかなり現実的だと見ています。ベンチマークの見栄えより、どの業務で勝てるかを明確にしているからです。

価格面も見逃せません。API料金は入力100万トークン5ドル、出力100万トークン30ドルで、GPT-5.4のちょうど2倍です。100万トークンという単位は、長文の文書処理や大量ログの要約を回せる規模を意味します。OpenAIは、GPT-5.5が同じCodex系タスクをより少ないトークンで終えるため、実効コストは約20%高い程度に収まると説明しました。しかも外部評価機関Artificial Analysisがこの効率性を確認しています。つまり、価格は2倍でも、実務コストは2倍に跳ねない構造です。しかし、ここで20%という差を軽く見るのは危険です。月に1,000万出力トークンを使うなら、標準版GPT-5.5は300ドルで、比較対象のClaude Opus 4.7は250ドルになります。50ドル差は小さく見えても、部門単位では積み上がり、導入判断を左右します。

加えてGPT-5.5 Proは、より重いテスト時計算を追加する上位版として、入力100万トークン30ドル、出力100万トークン180ドルで提供されます。BrowseCompで90.1%を出した点は、エージェント型のWeb探索に強いことを示します。90.1%は、複数サイトをまたぐ調査や情報収集の信頼性が高い水準であり、リサーチ用途の企業にとって無視できない数字です。

日本企業が見直すべき導入基準

日本の実務で大事なのは、GPT-5.5の性能をそのまま信じることではなく、自社の仕事に当てたときの「やり直し回数」を測ることです。問い合わせ対応、社内文書の一次整理、コード修正、監査ログの点検のような仕事では、1回の出力品質よりも、何回修正して人が介入するかが総工数を決めます。読者の皆さんも、AIを入れたのに手直しが増えて逆に遅くなった経験を一度は見たことがあるはずです。

OpenAIはCodexの週次利用が社内で85%以上に達したと述べています。85%という比率は、実験導入ではなく、日常業務の基盤に入り込んだことを意味します。日本企業にとって重要なのは、このような利用率の高さを真似ることではなく、まず対象業務を絞ることです。特に、APIコストが2倍に見える局面では、安いモデルを大量投入するのか、高いモデルで試行回数を減らすのかを分けて考える必要があります。私はここで、調達部門と開発部門が同じ表を見て議論する体制が必須になると見ています。

開発者視点では、MCP対応の有無が設計の分岐点になります。外部ツールを安全に呼び出す仕組みが弱いままだと、GPT-5.5の強い部分を活かし切れません。逆に、社内API、チケット管理、ドキュメント検索とつなげれば、単なるチャットボットが作業エージェントに変わります。日本ではセキュリティ審査が厳しいため、権限設計、監査ログ、リトライ条件の定義まで先に決めるべきです。

業務自動化の主役が比較表では決まらない時代

今後は、GPT-5.5のような高性能モデルが単独で勝つというより、どの会社が業務フローに深く組み込めるかで差がつきます。Terminal-Bench 2.0のような指標が強いモデルは、運用自動化や開発支援で採用が進みます。一方で、MCPの接続性に強いモデルが別軸で選ばれます。つまり、勝敗は「どのモデルが最強か」ではなく、「どの業務で失敗しにくいか」で決まります。ここを読み違える企業は、性能表は揃えても現場定着で失速します。

編集部コメント

正直に言うと、私が引っかかったのは「API価格は2倍だが実効コストは20%増」とする説明です。理屈は通っていますが、日本企業の現場では“理論上安い”より“請求書が読める”ことが重いからです。精度向上よりも、使った分だけ増えるコストをどう説明するかが先に問われます。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次