2026年6月28日IT

Ollama Cloud の使い勝手: 1週間利用してみて

なにか安く大量にLLMを実行させることができないかと思って　Ollam Cloud というものを契約してみました。

ざっくり Ollama Cloud について解説すると、ローカルLLMアプリケーションを開発している Ollama が提供しているクラウドサービスです。オープンウェイトモデルをホスティングしてくれています。最近はオープンウェイトモデルも推論パラメータが500Bとか1Tとかになってきており、ローカルで動作させることが一般のパソコンじゃ無理なので、クラウドサービスを提供してくれるのはありがたいです。

詳しくは Ollama Cloud ってなに？　って AI にでも聞いてください。多分自分が解説するよりもわかりやすく解説してくれます。

じゃあ、この記事ではなにを書くのかって言うと、使ってみた私自信の個人的な感想です。温かい手書きだぞ。

まず結論として、 Ollama Cloud の使い勝手はそこそこ、という感じです。お金があるのなら OpenAI や Anthropic の $200 プランをぶん回すほうが幸せになれると思います。

最近の OpenAI の GPT5.5 や Anthropic の Claude Opus といったフロンティアモデルにちょっと劣るくらいかな？　といえるような性能の　GLM5.2 というオープンウェイトモデルも出現してきたので、Ollama Cloud でもそこそこ使えるという印象です。

Ollama Cloudは複数のLLMモデルを試せるのが良いところだと思います。Z.ai が開発する GLM5.2,Moonshot AI の Kimi K2.7 Code, Alibaba の Qwen, Minimax-AI の MiniMax などなど。使ってみると各モデルの性格？みたいなものが感じられて興味深くあります。

色々な LLM モデルを試せるサービスとしては OpenCode Go というものもあります。こちらは初月 5$ から始められて、更新 10$ で利用できます。かなり安いプランですが、5時間利用量、週間利用量、月間利用量でそれぞれ制限があります。OpenCode 曰く、それぞれのリミットは 5時間利用料は 12$, 週間利用料は 20$, 月間利用料は 60$ です。OpenCode の主張を信じるなら 10$ で 60$ 分の推論が行えるらしいです。

対して Ollama Cloud の利用料は 20$ です。月間制限はなく、5時間制限と週間制限のみです。月間制限がないのは嬉しいポイントです。体感ですが、OpenCode Go のサブスクリプションよりも Kimi K2.7 Code をたくさん利用できると感じます。

Ollama の設定ページで割り当てられた利用量が確認できます。

Ollama Cloud の利用量

各モデルごとにどれだけ消費したのか確認できるので、利用量を確認しながらモデルを選択します。割り当てられた利用量をどれだけ消費するかは Ollama Cloud の GPU にどれだけ負荷をかけたかによって決まるようです。推論パラメータが大きいモデルほど利用量が大きくなります。GLM5.2 や Kimi K2.7 Code, DeepSeek V4 Pro などの大型の推論モデルは大量に割当利用量を消費します。

推論速度は利用する時間帯、クラウドの込み具合、使用するモデルなどでかなり変わります。利用しながら速度、性能、コストで使いやすいものを見つけてください。迷ったら GLM5.2 使っておけば出力品質はバッチリです。速度はちょっと微妙で、Ollamaのなかでコストは悪い方ですが。

OpenAI (GPT, Codex), Anthropic (Claude) とのサブスクリプションと比べてどうか

Ollama Cloud とクローズドモデルのサブスクリプションを比較した場合、やはり GPT5.5 や Claude Opus のほうが賢いと感じます。Ollama Cloud はそのかわり複数種類のAIを沢山呼び出せます。

OpenAI, Claude はWEBでもチャットUIを提供しているので、ちょっとしたチャットはしやすいです。Ollama Cloud はWebから利用できるチャットUIなどは提供されていないので、WEBでチャットしたいのならば自分でなにか用意しなければいけません。

OpenAI のサブスクリプションには画像生成も含まれていますが、Ollama Cloud では現在画像生成のクラウドモデルは提供されていません。ちょっと残念。

Anthropic は Claude Design というデザインサービスを提供していますが、Ollama Cloud ではそのようなおしゃれなサービスはありません。モデル提供だけです。opendesignのようなオープンソースのソフトウェアで代替はできます。

ということで、性能、サービスは OpenAI, Claude のほうが優れていると思います。

高品質低用量のサービスを取るか、中低品質、大容量のサービスを取るか、という選択だと思います。お金があるならば 200$の OpenAI か Anthropic のサブスクリプションを契約して、高品質コンテンツを生産したほうが良いと思います。お金をケチってLLMを大量に回したいという要求ならば Ollama Cloud はハマると思います。

良い点・悪い点

良い点

良かった点は何度も言っているところですが、利用するモデルも影響しますがかなりLLMを使える点です。モデルの選択次第では大量にLLMを呼び出せるのでかなりコスパ良く利用できそうです。

Ollama Cloud は Ollama を通して利用できるので対応しているソフトがそこそこあるのも良かったです。

悪い点

ちょっと利用していて困ったのは、大量にモデルを動かしていると推論が順番待ち？みたいな状況になってしまうことです。20$のプランでは同時推論数が3つまでとなっているので複数ターミナルで同時開発などを行うと容易に制限に引っかかります。サブエージェントの呼び出しなども考えると同時作業できるのは1~2プロジェクトまででしょう。

各モデルの使用感

各モデルの使用感です。なお正確なベンチを取ったわけではなく、自分が利用した体感や公表されているベンチを見比べての主観です。どれだけ呼び出して、どれだけ割当消費量を消費したか参考程度に見てください。

GLM5.2

週間呼び出し 1605回。薄水色。性能はいいんですが、呼び出し回数に対して Weekly usage にしめる割合が大きくコストが高め。

GLM5.2

最近 OpenLLM 界隈だと話題のモデル。ベンチマークだとClaude Opusにちょっと劣るくらい。Ollama Cloud の推論コストは高め。20$ のプランだと全てをコレで実行しようとするとトークンが足りないのでモデルを使い分ける必要がありそうです。マルチモーダルじゃないので画像を読み取ることができない。日本語でチャットしてると段々中国語で返事をするようになってくるので、やや使いにくい。

Kimi K2.7 Code

週間呼び出し 2020回。左の水色

Kimi K2.7 Code

Kimi K2.7 Code はコーディングに特化したモデル。結構いい感じにコードを書いてくれます。GLM 5.2 にちょっと劣るくらいで、コストも少し安い。

gemini 3 flash preview

週間呼び出し 61回。明るい緑色

gemini 3 flash preview

なぜか利用できる gemini 3 flash preview。性能の割にコストが高いので利用するメリットはない。ちょっとしか呼び出していないのに割当利用量を消費しまくるのでびっくりした。

MiniMax M3

週間呼び出し 1296回。桃色。呼び出し回数は多いのに Weekly usage に占める割合はかなり低い。

MiniMax M3

1M コンテキストが扱えるモデル。日本語でチャットしていても中国語が混ざってこない。GLM5.2, Kimi K2.7 Codeと比べると利用量がうんと少ないので普段遣いしやすい。なんかトークンの集計がコイツだけバグっていそうな気がします。ただちょっとアホかも？

Nemotron 3 ultra

週間呼び出し 178回。薄緑色。緑の左端のやつ。

Nemotron 3 ultra

NVIDIA が開発したモデル。550B のパラメータを持つが、推論時は55BがアクティブのMoEモデル。~~推論速度が早い。~~。最初に触ったときは早く感じましたが、別の日に触ったら結構遅かったです。

DeepSeek V4 Pro

週間呼び出し回数 79回。紫の左側

DeepSeek V4 Pro

DeepSeek が開発したモデル。DeepSeek が提供する API だと性能の割にめちゃくちゃ安い。ただし Ollama Cloud で利用するとなんだか割当利用量の消費が激しいので使いにくい。利用するのならば DeepSeek の API を直接利用するか、OpenCode のサブスク経由で利用するのが良さそう。Ollama Cloud で利用する場合は注意が必要。

DeepSeek V4 Flash

週間呼び出し 946回。紫の右側

DeepSeek V4 Flash

早い、安いモデル。沢山動かしても割当利用量をほとんど消費しない。自走力も高いし、1M コンテキストも扱える。軽量タスクを頼むならコレが良い。

Qwen 3.5

~~Qwen 3.7 がリリースされているのに、なぜかまだ Qwen 3.5 が提供されている。~~　調べたら Qwen 3.7 は OpenWeight モデルじゃないんですね。ベンチを見た感じ画像認識タスクとかを渡すのがいいのかも？

利用しているエージェントハーネス

OpenCode CLI を利用しています。プロジェクトごとに開発用コンテナを立てて、その中で作業をしています。OpenCode CLIは対応しているプロバイダーも多く、Ollama Cloud, OpenCode Go のほかに、OpenAI のサブスクにも対応していたりと複数モデルが使えるので使い勝手が良いです。

ただ claude code や codex に搭載されている /goal コマンドが実装されていないので、少し不満もあり乗り換えも検討中です。

まとめ

Ollama Cloud はクラウドモデルを提供するプラットフォームです。やや癖がありますが、OpenCode よりも割当利用量は多く、オープンウェイトモデルを定額である程度利用したいというのならば有効な選択肢の一つだと思います。

ただ 20$ のサブスクリプションをするのならば、まず OpenAI や Anthropic を試してみて、ほかにも興味が出てきたら利用するのが良いと思います。

この記事はOuvill(おーびる)が書きました。IT 関連の記事執筆、サイト制作、Web アプリケーション開発の業務委託などのご依頼を賜っております。

ご要件がある方はコンタクトフォームからご連絡ください。

@Ouvill

OpenAI (GPT, Codex), Anthropic (Claude) とのサブスクリプションと比べてどうか

良い点・悪い点

良い点

悪い点

各モデルの使用感

GLM5.2

Kimi K2.7 Code

gemini 3 flash preview

MiniMax M3

Nemotron 3 ultra

DeepSeek V4 Pro

DeepSeek V4 Flash

Qwen 3.5

利用しているエージェントハーネス

まとめ

関連記事