AIエージェントの自律性と評価基盤の進化──Coinbase Agentic Walletsと新世代ベンチマークが示す2026年2月の転換点
MEDIA一覧に戻る
AI / AI技術関連2026.02.1610分

AIエージェントの自律性と評価基盤の進化──Coinbase Agentic Walletsと新世代ベンチマークが示す2026年2月の転換点

はじめに

2026年2月、AIエージェント分野は2つの重要な転換点を迎えました。1つは経済的自律性の獲得、もう1つは評価基盤の成熟です。Coinbaseが2月11日に発表したAgentic Walletsは、AIエージェントが初めて独自の金融資産を管理する能力を獲得したことを意味します。一方、OpenAIのBrowseCompを始めとする新世代ベンチマークは、AIエージェントの能力を客観的に評価する標準化された手法を提供し始めています。

本記事では、2026年2月に発表されたこれらの技術革新が、AIエージェントの実用化にどのような影響を与えるのかを徹底解説します。

Coinbase Agentic Wallets──AIエージェントの経済的自律性

発表内容と技術的背景

Coinbaseは2026年2月11日、AIエージェント専用のウォレットインフラ「Agentic Wallets」を発表しました。これは、AIエージェントが人間の介入なしに暗号資産を保有・送金・取引・運用できる初の本格的なインフラです。

Agentic Walletsの核となる技術は、Coinbaseが開発したx402プロトコルです。x402は既に5000万件以上のトランザクション実績を持ち、マシン間決済、APIのペイウォール、プログラマティックなリソースアクセスを人間の介入なしで実現します。

以下の図は、Agentic Walletsの基本的なアーキテクチャを示しています。

この図が示すように、AIエージェントのウォレット操作はセキュリティガードレールを必ず経由する設計となっており、無制限な資産アクセスを防ぎます。

セキュリティ設計の革新性

Agentic Walletsの最も重要な特徴は、スマートセキュリティガードレールです。これは以下の機能を提供します。

  • プログラマブルな支出上限: AIエージェントごとに異なる支出制限を設定可能
  • セッションベースの上限: 1回のセッションあたりの取引額を制限
  • トランザクション制御: 特定の種類の取引のみを許可する細かいアクセス制御
  • 秘密鍵の隔離: 秘密鍵はCoinbaseの安全なインフラ内に保管され、AIエージェントのプロンプトやLLMには一切公開されない

この設計により、AIエージェントがハッキングされたりプロンプトインジェクション攻撃を受けたりしても、資産の大規模な流出を防ぐことができます。

対応ブロックチェーンと機能

Agentic Walletsは初期段階で以下のブロックチェーンに対応します。

  • EVMチェーン: Ethereum、Polygon、ArbitrumなどのEVM互換チェーン
  • Solana: 高速トランザクションに対応
  • Base L2: Coinbaseが支援するLayer 2ソリューション(ガスレストランザクションに対応)

提供される機能ライブラリには、Authenticate(認証)、Fund(資金調達)、Send(送金)、Trade(取引)、Earn(利回り獲得)が含まれており、開発者は複雑なトランザクションロジックを一から実装する必要がありません。

AIエージェント経済圏の幕開け

Agentic Walletsの登場は、AIエージェント経済圏(Agent Economy)の幕開けを告げるものです。これまでAIエージェントは人間の代理として動作するにとどまりましたが、独自の資産管理能力を獲得したことで、以下のような新しいユースケースが実現可能になります。

  • 自律的なサプライチェーン管理: AIエージェントが自ら取引先を探し、契約を結び、支払いを実行する
  • 分散型タスクマーケットプレイス: AIエージェント同士がタスクの依頼と報酬の支払いを自律的に行う
  • 動的なリソース最適化: クラウドリソースやAPIアクセスを需要に応じてリアルタイムで購入・販売する

以下のシーケンス図は、AIエージェント同士が自律的に取引を行うシナリオを示しています。

このような自律的な経済活動が実現することで、人間は戦略的な意思決定に集中し、日常的な取引実行はAIエージェントに委ねることが可能になります。

AIエージェント評価の新時代──BrowseCompとGAIA

BrowseComp: 情報検索能力の新基準

OpenAIが発表したBrowseComp(Browsing Competition)は、AIエージェントのインターネット情報検索能力を測定する新しいベンチマークです。BrowseCompは1,266問の高難易度問題で構成され、従来のベンチマークでは評価できなかった「複雑に絡み合った情報を発見し、統合する能力」を測定します。

BrowseCompの特徴は以下の通りです。

  • 現実世界の複雑性: 単一のページではなく、複数のウェブサイトにまたがる情報を統合する必要がある
  • 深い推論: 表面的な情報検索ではなく、関連情報を組み合わせて結論を導く能力を評価
  • 動的なWebナビゲーション: 検索エンジン、フォーム入力、リンクのトラバースなど、多様なWeb操作を要求

BrowseCompの登場により、AIエージェントの「情報収集能力」が定量的に評価可能になり、エンタープライズでの意思決定支援やリサーチ業務への適用可能性を客観的に判断できるようになります。

GAIA: 汎用AIアシスタントの最高峰

GAIA(General AI Assistant Benchmark)は、汎用AIアシスタントの能力を測定するベンチマークで、推論、マルチモーダル処理、ツール使用の3つの軸で評価を行います。

GAIAは難易度がLevel 1〜3に分かれており、最高難易度のLevel 3では、2025年中頃時点でWriter社のAction Agentが達成した61%が最高スコアとなっています。これは、現在のAIエージェントがまだ汎用的なタスクの約40%で人間の支援を必要とすることを示しています。

WebArena: 実用的なタスク完遂能力

WebArenaは、実際のWebアプリケーション(EC サイト、フォーラム、コード管理、CMSなど)での機能的正確性を評価するベンチマークです。812のタスクテンプレートとそのバリエーションで構成され、「最終的なゴールを達成できたか」という結果で評価されます。

以下の表は、主要なAIエージェントベンチマークの比較です。

ベンチマーク評価対象問題数重点領域
BrowseComp情報検索・統合1,266複雑なWeb情報の発見と統合
GAIA汎用アシスタント非公開推論・マルチモーダル・ツール使用
WebArenaWebアプリ操作812+機能的正確性・ゴール達成
AgentBenchマルチターン推論8環境オープンエンドな意思決定

これらのベンチマークの標準化により、AIエージェントの導入検討時に「どのベンチマークで何%のスコアを達成しているか」を比較することで、適切なエージェントを選定できるようになります。

2026年2月の市場動向と産業構造の変化

市場規模の急拡大

2026年2月時点で、Agentic AI市場は急速に拡大しています。業界アナリストは、市場規模が2025年の78億ドルから2030年までに520億ドル以上に成長すると予測しています。

Gartnerは、2026年末までにエンタープライズアプリケーションの40%がAIエージェントを組み込むと予測しており、これは2025年の5%未満から劇的な増加です。

実証実験から本番運用への移行

2026年2月の最も重要なトレンドは、AIエージェントが実証実験(PoC)から本番運用(Production)への移行を果たしていることです。業界調査によれば、組織の約65%がAIエージェントを少なくとも1つのワークフローに統合していますが、本番環境にスケールさせた組織は25%未満にとどまっています。

このギャップは「2026年のビジネス上の中心的課題」とされており、以下の3つの障壁が存在します。

  • 技術的成熟度 : ツール統合、メモリ管理、エラーハンドリングの標準化が不十分
  • セキュリティとガバナンス : AIエージェントの自律性と企業のコンプライアンス要件の両立が困難
  • ROIの不透明性 : AIエージェントの投資対効果を定量的に測定する手法が確立されていない

Coinbase Agentic Walletsのようなインフラや、BrowseCompのような評価基盤は、これらの障壁を解消するための重要なピースとなります。

マルチエージェントシステムへの関心急増

Gartnerの報告によれば、マルチエージェントシステムに関する問い合わせが2024年Q1から2025年Q2にかけて1,445%増加しました。これは、単一のAIエージェントではなく、複数のエージェントが協調して動作するシステムへの関心が爆発的に高まっていることを示しています。

以下の図は、マルチエージェントシステムの基本的な協調パターンを示しています。

この図のように、各エージェントが専門的な役割を担い、オーケストレーターが全体の調整を行う構造が主流になりつつあります。Agentic Walletsのような経済的自律性を持つエージェントが組み込まれることで、より高度な協調行動が可能になります。

セキュリティとガバナンスの新しい防衛線

Gen Digital Agent Trust Hub

2026年2月、Gen DigitalはGen Agent Trust Hubを発表しました。これは、AIエージェントとの安全なやり取りを支援する世界初のツールとされています。

Agent Trust Hubは以下の2つの機能を提供します。

  • AI Skills Scanner : AIエージェントのインストラクションをインストール前にスキャンし、悪意のあるコマンドを検出
  • Verified Skills Marketplace : 専門家によって検証された安全なAIエージェントスキルを提供するマーケットプレイス

これは、AIエージェントのセキュリティが「エージェント自体の設計」だけでなく、「エージェントが使用するスキルやツールの検証」にまで拡大していることを示しています。

プロンプトインジェクション対策の進化

Agentic Walletsのセキュリティ設計は、プロンプトインジェクション攻撃への対策としても優れています。秘密鍵をLLMのプロンプトに一切含めないことで、悪意のあるユーザーがAIエージェントを騙して秘密鍵を漏洩させる攻撃を根本的に防いでいます。

また、トランザクションごとのセキュリティガードレールにより、仮にAIエージェントが誤った判断をしても、設定された制限を超える取引は実行されません。

今後の展望──自律性と評価の両輪

2026年後半に向けた技術進化

Agentic WalletsとBrowseCompは、AIエージェント分野の2つの重要な柱──自律性の拡大評価基盤の確立──を象徴しています。

今後、以下のような進化が予想されます。

  • クロスチェーンAgentic Wallets: 複数のブロックチェーンをシームレスに横断する資産管理
  • ベンチマーク統合プラットフォーム: BrowseComp、GAIA、WebArenaなどを統合した総合評価システム
  • リアルタイムガバナンス: AIエージェントの行動を監視し、異常を検出して即座に制限を加える動的ガバナンス

エンタープライズ導入の加速

Coinbase Agentic Walletsのようなインフラが整備されることで、エンタープライズでのAIエージェント導入が加速します。特に、以下の業界での活用が期待されます。

  • 金融サービス: 自律的なトレーディング、ローン審査、リスク管理
  • サプライチェーン: 在庫管理、発注、物流最適化の自律化
  • マーケティング: 広告出稿、コンテンツ生成、予算配分の動的最適化

人間とAIエージェントの新しい協働モデル

AIエージェントが経済的自律性を持つことで、人間とAIエージェントの関係は「指示と実行」から「委任と監督」へと変化します。人間は戦略的な目標を設定し、AIエージェントは日々の実行を自律的に行い、定期的に結果を報告する──このような新しい協働モデルが標準になるでしょう。

BrowseCompやGAIAのようなベンチマークは、「どのタスクをAIエージェントに委任できるか」を判断する基準を提供します。これにより、企業は自社のワークフローを分析し、AIエージェントに適したタスクを特定して段階的に移行することが可能になります。

まとめ

2026年2月は、AIエージェント分野にとって記念すべき月となりました。Coinbase Agentic Walletsは、AIエージェントに経済的自律性を与え、新しいAIエージェント経済圏の幕開けを告げました。一方、BrowseCompやGAIAなどの新世代ベンチマークは、AIエージェントの能力を客観的に評価する標準化された手法を提供し、エンタープライズ導入の意思決定を支援します。

この2つの進化──自律性と評価──は、AIエージェントが実証実験から本番運用へと移行するための両輪です。技術の成熟とともに、セキュリティとガバナンスの仕組みも進化し、企業は安心してAIエージェントを業務に組み込むことができるようになります。

2026年後半に向けて、AIエージェントはさらに高度な自律性を獲得し、人間との協働モデルは新しい段階に入るでしょう。今こそ、AIエージェントの可能性を最大限に活用し、ビジネスの変革を加速させる絶好の機会です。

参考文献

  • Coinbase Developer Platform: Introducing Agentic Wallets
  • OpenAI: BrowseComp Benchmark
  • The Block: Coinbase rolls out AI tool to give any agent a wallet
  • EvidentlyAI: AI Agent Benchmarks Guide
  • Gartner: Agentic AI Market Predictions 2026
  • Medium: Agentic AI in 2026 - The Year Autonomous Agents Crossed the Chasm
  • The New Stack: 5 Key Trends Shaping Agentic Development in 2026