2025.6.16

MinionとNVIDIA H100のConfidential Computingモードのセキュリティ解説

技術

SCROLL DOWN SCROLL DOWN SCROLL DOWN

こんにちは!AIサービス開発室の鈴木生雄です。最近、M4 Pro搭載のMac mini(ユニファイドメモリ64GB)を購入しました。目的は自宅でローカルLLMを動作させるためです。そういう経緯もあって、Ollamaのブログを読んでいたら、スタンフォード大学が開発したMinionというプロトコルに関するエントリーを見つけました。

Minionは、スタンフォード大学のHazy Researchラボが開発したオープンソースの研究プロジェクトで、小型のローカルLLM(大規模言語モデル)とクラウド上の最先端LLMが協調動作するためのプロトコルです。このプロトコルは、主に以下の2つの課題を解決することを目指しています。

  • 大規模LLM利用におけるコスト問題の解決
  • プライバシーおよびセキュリティ上の懸念の解決

引用元:Google NotebookLMの出力結果

これはAI普及促進に大きな影響を及ぼしそうだと直観的に思いました。なぜなら、そもそも私は、企業がAI導入をする際の大きな課題は、とコスト(AIの実行コストを抑えたい)とセキュリティ(他社に機密情報を渡したくない)だと思っていて、Minionがこれに対する解決策になり得ると感じたからです。

ちなみに、Minionを使ったローカルLLMとクラウドモデル(e.g. ChatGPT)を連携を試せるStreamlitのアプリが用意されているみたいなので、後日試してみたいと思います。

ということで、これ以降は私がChatGPTでDeepResearchした結果を記しておきます。一部の文章を修正したり、画像を挿入したりはしていますが、ほぼChatGPTの出力どおりです。長文ではありますが注目技術ですので、ぜひお読みください。

MinionとNVIDIA H100のConfidential Computingモードのセキュリティ解説 

Minionとは何か、どのような問題を解決しようとしているか

Minionとは、スタンフォード大学のHazy Researchラボが開発したオープンソースの研究プロジェクトで、小型のローカルLLM(大規模言語モデル)とクラウド上の最先端LLMが協調動作するためのプロトコルです。簡単に言えば、手元のデバイス上で動く比較的小規模なモデル(例:数十億パラメータ規模のLLM)と、クラウド上にある非常に大規模なモデル(例:OpenAIのGPT-4など)を対話させることで、一つのタスクを共同で解決しようとする仕組みです。このプロトコルでは、入力データや文脈(コンテキスト)となるテキストは基本的にローカル側に留まり、ローカルLLMだけが直接それにアクセスします。一方でクラウド上の「フロンティア」モデル(最先端で高性能な大規模モデル)は、ローカルモデルから必要な情報を受け取り、最終的な回答を生成するために指示を出したり結果を統合したりする役割を担います。

Minionが解決しようとしている主な課題は、大規模LLMを利用する際のコストとプライバシーの両面の問題です。従来、クラウド上の巨大なLLM(例えばGPT-4)に長いプロンプトや大量のデータを送信すると、その分だけ利用料金(APIコストや計算コスト)が高額になります。また機密性の高いデータをクラウドに送ることへの不安(プライバシーやセキュリティ上の懸念)もあります。Minionのプロトコルでは、できるだけ多くの処理をローカルの小型モデルで行い、クラウド側には必要最低限の問い合わせ(質問)だけを送るようにします。これによりクラウドに送信するトークン(データ量)を大幅に削減し、クラウド利用コストを5倍から30倍も削減できたという報告があります。それでもタスクの最終精度(回答の品質)はクラウド上の大型モデル単独で処理した場合の約98%を維持できたとされ、コスト効率と性能のバランスにおいて非常に有望です。さらに、データの大部分(文脈となるテキスト全文など)がデバイス上から外に出ないため、ユーザーにとってはプライバシー保護の上でも利点があります。たとえば企業内部の機密文書を要約するような場合でも、概要だけをクラウドのモデルに問い合わせて詳細な分析は手元のモデルで行う、といった形で敏感な情報の外部流出を最低限に留めることができます。

もっとも、Minionの初期プロトコルではローカルモデルだけですべてを完結できるわけではないため、一部の情報(クラウドモデルへの質問や要約結果など)はどうしてもクラウド側に送信せざるを得ず、その内容が機密的であれば依然としてリスクが残りました。そこで研究チームは次に、「クラウドとのやり取り自体をエンドツーエンドで暗号化し、クラウド事業者から見ても内容がわからないようにできないか」という課題に挑戦しました。この問いに答えるために導入されたのが、後述するNVIDIA H100 GPUの新機能「Confidential Computingモード」を活用した強力なセキュリティ拡張です。

Minionが利用している技術(Hazy Research LabやOllamaでの活用など)

Minionはスタンフォード大学のHazy Research Labによって提案され、学術論文およびオープンソースのソフトウェアとして公開されています。このプロジェクトは実践的な形で提供されており、例えばローカル環境では「Ollama」と呼ばれるLLM実行プラットフォームを利用して小型モデルを動かし、クラウド側はOpenAIのAPIなどを介して高度な大規模モデルにアクセスするといった形で構築できます。OllamaはMacやPC上で手軽に大規模言語モデルを動かすためのツールであり、MinionはそのOllamaをクライアント(ローカルLLM)として扱うことで、一般の消費者デバイス上で動く小さなモデルとクラウド上の大きなモデルとのコラボレーションを実現しています。例えば研究チームのデモでは、ローカル側で約40億パラメータの小型モデル(GoogleのGemma3:4bなど)をOllama上で走らせ、クラウド側ではGPT-4クラスのモデル(GPT-4の派生モデルGPT-4o等)に問い合わせる構成を使用しています。ソフトウェア的には、MinionはPythonライブラリおよび簡易アプリケーションの形で提供されており、GitHub上のコードを入手して自分で試すこともできます。用意されたストリームリット(Streamlit)ベースのデモUIを起動すれば、ローカルモデル(例:Ollamaで動かすLlama系モデルなど)とリモートモデル(例:OpenAIのGPT-4 API)を選択し、Minionプロトコルで協調動作させる対話型アプリを体験できます。研究論文では「Minion」と「MinionS」という2種類のプロトコル構成も紹介されています。前者は1体のローカルモデルとクラウドモデルが自由に対話しながら解決策に到達する方式で、後者(MinionS)はクラウド側の大規模モデルがタスクを細かいサブタスクに分割し、複数の小型ローカルモデルに並行して処理させる方式です。MinionSを使うことでクラウドコスト削減効果はやや小さくなるものの(約5.7倍のコスト削減)、精度の低下はさらに抑えられる(クラウド単独性能の約98%からほぼ98%超に向上)など、状況に応じた使い分けが可能となることが示されています。これらは現在は研究段階の実装ですが、一般ユーザーでも試せる形で公開されているため、将来的に様々な応用分野での活用が期待できます。

画像の出典:Ollama Blog(https://ollama.com/blog/minions)

Confidential Computingの基本概念と従来のクラウドAI処理のセキュリティ課題との違い

コンフィデンシャル・コンピューティング(Confidential Computing)とは、「クラウドや共有環境においてデータが“使用中”の状態でもそれを暗号化して保護する」ことを可能にする一連の技術および仕組みの総称です。

従来、データ保護は主に以下の2つの状況(ライフサイクル)に焦点が当てられてきました:

  • 保存時(Data at Rest): データがストレージやデータベースに保存されている状態。ディスク暗号化などにより保護します。
  • 通信時(Data in Transit): データがネットワーク上を移動(送受信)している状態。SSL/TLSなどの暗号化プロトコルで保護します。

しかし、クラウド上の計算において最も重要とも言える「使用時(Data in Use)」すなわち「処理中のデータ(メモリ上で計算に使われているデータ)」の保護は長年困難でした。通常、CPUやGPUがデータを処理するとき、そのデータはメモリ上では平文(暗号化されていない生の情報)として扱われます。このため処理中のデータは、たとえ保存時や通信時に暗号化していても、計算中にメモリ上で盗まれれば意味がないのです。従来のクラウドサービスでは、ユーザーはクラウド事業者の内部管理やセキュリティを信頼するしかありませんでしたが、理論的には悪意ある攻撃者や内部関係者、さらにはクラウド運営者自身がメモリ上の平文データにアクセスできてしまうリスクが残されています。実際、大規模言語モデル(LLM)のクラウドサービスを利用すると、我々の送信するプロンプトやチャット履歴はクラウド側サーバのメモリに平文のまま保持され、場合によってはログに保存されることもあります。例えば企業秘密や個人情報を含む文章をそのままクラウドAIに入力した場合、サービス提供者がその内容を閲覧・分析したり、将来的にモデル訓練データとして利用する可能性すらあります(多くのサービス利用規約でユーザーデータの二次利用が許可されている場合があります)。

この「使用中データの保護」という難題に応える革新的技術がコンフィデンシャルコンピューティングです。具体的には、ハードウェアで保障された隔離環境を用意し、その中でだけデータを復号・処理し、外部からは中身が見えないようにします。この隔離された安全な領域のことを「Trusted ExecutionEnvironment(TEE)=信頼できる実行環境」と呼びます。TEEはCPUやGPU内の特別な領域で、たとえOSやハイパーバイザ(仮想化基盤)といった特権ソフトウェアからでさえ中のデータやコードを直接読み取れないようになっています。簡単に言えば、TEEは「金庫」のようなもので、その中でならデータを平文で使って計算しても安全だという空間です。コンフィデンシャルコンピューティングでは、データをこの金庫(TEE)の中で処理し、それ以外の場所では常に暗号化された状態に保つことで、「保存時」「移送時」「使用時」のすべての段階でデータを継続的に保護することを目指します。

従来のクラウドAIサービスとの最大の違いは、クラウド事業者を「信頼しなくても良い」点です。通常のクラウドでは契約やポリシー上「プロバイダはあなたのデータを勝手に見たりしません」と約束はしてくれますが、それは人間的・法律的な信頼に依存しています。コンフィデンシャルコンピューティングの場合、技術的に「たとえクラウド運営者であってもデータにアクセスできない」ことが保証されるため、信頼ではなくハードウェアによる証明に基づいた安全性が確保されます。これはゼロトラスト(Never Trust,Always Verify:「決して信用せず、常に検証せよ」)の思想にも合致しており、クラウド利用におけるパラダイムを「契約上の信頼」から「技術上の保証」へ一歩進めるものとして注目されています。

NVIDIA H100の”Confidential Computingモード”の仕組み(ハードウェア機能、TEE、暗号化など)

それでは、Minionのセキュリティ強化を支えるNVIDIA H100 GPUの”Confidential Computingモード”について、その仕組みを解説します。NVIDIAのH100(開発コードネーム: Hopper)は2022年~2023年にかけて登場したデータセンター向けの最新世代GPUですが、これは世界で初めてコンフィデンシャルコンピューティングをサポートしたGPUでもあります。H100には「Confidential GPU (cGPU)」とも呼ばれる特殊モードが搭載されており、このモードで動作している間はGPU上で実行されるコードや扱うデータはすべてハードウェアによって暗号化され、GPUチップ内の隔離領域(エンクレーブ)に閉じ込められる仕組みになっています。具体的には、H100の演算コア(SM)や高速メモリ(HBM)上に置かれるプログラムやデータは、外部から直接読み取ろうとしても常に暗号化された状態でしか見えないようになっています。このため、たとえGPUを搭載したサーバの管理者権限(root権限)を持つ者であっても、ConfidentialComputingモードで動作中のGPU内部で何が計算されているかを平文では把握できません。H100にはこの目的のために専用のハードウェア暗号エンジンやメモリアクセスのファイアウォールが内蔵されており、不正なアクセスをブロックするとともに、後述するリモート証明(アテステーション)機能によりGPU内のTEE(エンクレーブ)が正しく機能しているかを外部から検証できるようになっています。これらの機能により、H100は計算中の機密ワークロードが常に保護されていることをハードウェアレベルで確認・担保できるのです。

Confidential Computingモードを利用したシステムでは、通常GPUだけでなくCPU側にもTEEを構築します。例えばMicrosoft Azureのクラウドでは、H100を搭載した仮想マシンでCPUに第4世代AMD EPYC(開発コード: Turin)を採用し、AMDのSEV-SNP(Secure Encrypted Virtualization – Secure Nested Paging)という技術でCPUのメモリ空間も暗号化・隔離することで、GPUとCPUの両方をそれぞれTEE化しています。そしてCPUとGPU間の通信(モデルの重みや演算結果の受け渡しなど)も暗号化することで、CPU->GPU間で二重のエンクレーブを構成する「ネストしたTEE」を実現しています。言い換えれば、クラウド上のサーバ全体がCPU+GPU二層のハードウェアセキュリティに守られた“金庫”のようになっており、その中だけで機密データの処理が行われる仕組みです。

Minionの強化版プロトコル(Secure Minions)

Minionは先に挙げたとおり、一部の情報(クラウドモデルへの質問や要約結果など)はどうしてもクラウド側に送信せざるを得ず、その情報の機密性確保が課題でした。その課題を、Confidential Computingモードを活用するアプローチで、解決するべく開発されたのがMinionの強化版プロトコルとも言えるSecure Minionsです。Secure Minionsでは以下の処理フローでクラウドモデルに送信する情報の機密性を確保しています。

画像の出典:Stanford University Hazy Research Laboratory Blog(https://hazyresearch.stanford.edu/blog/2025-05-12-security)

  1. エフェメラル鍵交換(セッション鍵の共有): ローカルのクライアントがそのセッション専用の公開鍵・秘密鍵ペアを生成し、クラウド側TEEとの間で公開鍵交換を行います。これにより両者間で共通のセッション暗号鍵を確立します(以降の通信を暗号化するための鍵) 。
  2. リモート・アテステーション(遠隔証明): データを送信する前に、ローカルクライアントはクラウド側のTEE環境に対して「あなたが本物で安全な環境であること」を証明するよう要求します。クラウドのサーバはCPUおよびGPUそれぞれのハードウェアに焼き付けられた秘密鍵を用いて証明書(アテステーションレポート)を生成し、自分が特定のセキュアVM上で動作する正規のAMD SEV-SNP対応CPUであり、実物のNVIDIA H100 GPUをConfidentialモードで稼働させていることを示します。この証明書はハードウェアベンダーによって署名・検証されるため偽装が困難で、クライアントはそれをチェックすることでクラウド側が信頼できる状態かどうかを判断できます。併せて、エンクレーブ内で動いているプログラム(VMイメージ)のハッシュ値も検証され、想定どおりのコードが動いていることが保証されます。
  3. 暗号化されたメッセージ通信: アテステーションが成功し信頼性が確立された後は、以降の全ての通信メッセージは共有したセッション鍵によりエンドツーエンドで暗号化されます。さらに各メッセージには署名(MAC)と逐次番号(ノンス)が付加され、改ざんや盗聴、中間者攻撃への耐性も確保します。これによってローカルとクラウドの間は暗号化トンネルで接続された状態となり、途中のネットワークやクラウド事業者にも内容は秘匿されます。
  4. TEE内での安全な推論実行: ローカルから暗号化されて送られたユーザーデータ(プロンプトなど)は、クラウド側ではCPU上のエンクレーブ内で復号され、大規模モデルによる推論処理はGPU上のTEE内で行われます。推論によって得られた回答や出力も暗号化され、署名付きでローカルに送り返されます。こうしてユーザーの入力も出力も常にTEEの内部以外では暗号化されている状態が保たれます。クラウド運営者やサーバ管理者であっても、適切な鍵を持つ当事者(この場合ユーザーのクライアント)以外はそのデータの中身を知ることはできません。

以上の仕組みにより、NVIDIA H100と対応するCPUを組み合わせたConfidential Computing環境では、モデルの重みからユーザーの入力・出力に至るまで全てがエンクレーブ内で処理され、通信も含めて完全に暗号化されます。これこそがMinionの提案する「クラウド上のLLMとプライベートに対話する」技術を支える基盤です。重要な点は、こうした高度なセキュリティ対策を施してもシステムのパフォーマンスオーバーヘッドはごく小さいことが実証されていることです。研究チームの評価では、8kトークン程度の長文プロンプトを扱う大型モデル(例:32億パラメータのQwen-32Bモデル)でも追加のレイテンシ(遅延)は1%未満で、ほとんど影響が無いという結果が得られています。小規模モデルでは多少オーバーヘッドが大きくなるケースもありますが、それでも防御策のない場合と比較してごくわずかな遅延増加に留まると報告されています。このように、Confidential Computingモードは高い安全性を確保しながらAI処理の高速性・大規模性を損なわないよう設計されており、実用上十分現実的なソリューションとなっています。

実用化による利点と今後の展望

Minionが示したようなクラウドAIの機密モード実行が実用化されていくことで、得られる利点は非常に大きいです。まず第一に、ユーザーや企業は機密データを安心してクラウド上のAIに扱わせることが可能になります。これまで、医療記録や金融データなどセンシティブな情報は「クラウドに送るのはリスクが高い」として社内利用にとどめたりしていました。しかしConfidential Computingを用いれば、データがクラウド事業者に漏洩する心配なくクラウドの高性能GPUや最新AIモデルを活用できるため、医療・金融・公共分野など高いセキュリティ要求がある業界でもクラウドAI活用が進むと期待されます。実際、この技術によって「クラウドに出せなかったデータを出せるようになる」効果は大きく、例えば製薬業界のケースでは複数企業・研究機関が互いに生データを見せ合うことなく機械学習モデルを共同で開発・評価できるようになりました。ある製薬企業の実証では、従来は共有できなかった機密臨床データを安全に持ち寄ってAIモデルをトレーニングすることで、モデルの精度を65%から74%に大幅向上させる成果も報告されています。これは、コンフィデンシャルコンピューティング技術がプライバシーとセキュリティの懸念を解消しつつモデルの精度向上をもたらす、一石二鳥(win-win)の状況を業界にもたらし得ることを示す好例です。データが守られる安心感により、これまで活用できなかったビッグデータをAIにかけられるようになれば、結果としてより良いモデル・サービスが生まれるという好循環が期待できます。

技術基盤の面でも、NVIDIA H100に続いて今後のGPUやアクセラレータにも同様の機密計算機能が搭載されていくでしょう。クラウド大手各社もこの流れを後押ししており、例えばMicrosoft Azureでは既にH100対応のコンフィデンシャルVM (ND H100 v5)を提供開始しており、ユーザーがそれを選択するだけで上記のようなTEE環境をオンデマンドで利用できるようになっています。Google CloudやAWSなど他のクラウドプロバイダもConfidential Computing対応のサービスを拡充しており、将来的にはクラウド上のあらゆるAI処理が標準で暗号化保護される時代が来るかもしれません。これはユーザーにとってはもちろんメリットですが、クラウド事業者にとっても、より機密性の高いワークロードを獲得できる(例えば政府機関や医療機関などもクラウドを使いやすくなる)というビジネス上の利点があります。

Minionのような「ローカルとクラウドの協調AI」においてConfidential Computingが実用化される意義も大きいです。ユーザーのデバイス上にしか無かった機密データを、一切内容を漏らさずクラウドAIの知見と組み合わせられるため、個人ユースでも企業ユースでも活用範囲が広がります。例えば個人ユーザーが自分のプライベート日記や写真の内容をAIに分析させたい場合、従来はプライバシー上難しい面がありましたが、将来はデバイス上の小型モデルが内容を理解しクラウドの強力なモデルが提案や要約をする、といったプライバシー保護AIアシスタントも実現できるでしょう。研究者たちは今回、Secure Minionsのプロトタイプを公開し誰でも性能測定できるようにしましたが、今後さらなる改良や他分野への応用が進めば、安全かつ効率的な分散AIシステムとして発展していく可能性があります。

最後に、コンフィデンシャルコンピューティングはクラウド利用における「信頼の形」を変える技術でもあります。NVIDIAの担当者は「H100のConfidential Computing技術は性能を犠牲にすることなく高いレベルのセキュリティを実現し、企業にこれまで以上のスピードでイノベーションを起こす力を与える」と述べています。また本技術は「クラウド利用における信頼関係を契約ベースから技術的保証ベースへ進化させるものだ」とも評されています。Minion+H100の取り組みは、そのような未来を先取りし、「クラウドAIとプライベートな対話ができる」ことを初めて実証してみせたと言えるでしょう。今後、この分野がさらに発展することで、クラウドとエッジがシームレスに連携しつつプライバシーも守られる、新しいAI活用の形が広まっていくと期待されます。

参考文献

Minions: where local and cloud LLMs meet · Ollama Blog

Secure Minions: private collaboration between Ollama andfrontier models · Ollama Blog

Mind the Trust Gap: Fast, Private Local-to-Cloud LLM Chat ·Hazy Research

Azure Confidential VM オプション

コンフィデンシャルコンピューティングとは?目的や仕組み、ビジネス上の価値を徹底解説

FortanixおよびNVIDIAの提供するコンフィデンシャルコンピューティングとAIを 活用し、製薬開発プロセスを変革 | Fortanix