トークンとは？

「なぜメッセージごとにコストが異なるのか？」というご質問を多くいただいています。透明性を重視しているため、仕組みを隠すのではなく、LLMの料金構造について簡単にご説明します。 

 当社では、AIプロバイダーが設定する料金に30％のサービス料を加算しています。そのうち25%は、クリエイターへの利益還元に充てられます。詳しくは「透明な価格設定」をご覧ください。 

 トークンとは、AIが文章を処理・理解するための基本単位です。AIが読み取り、生成する言語の「構成要素」とも言えます。 

 仕組みについて： 

 

 

 メッセージを送信すると、AIは処理前にそれをトークンに分解します。 

 

 

 トークンは単語全体、単語の一部、または1文字の場合もあります。 

 

 

 英語では平均して、1トークンは約4文字、または1単語の約4分の3に相当します。 

 

 

 例：「Hello, how are you?」≈ 約6トークン 

 

 

 トークンが重要な理由： 

 

 

 コスト： 多くのAIサービスでは、使用されたトークン数（入力・出力の両方）に基づいて料金が計算されます。 

 

 

 コンテキスト制限： AIモデルには、１つの会話の中で処理できるトークン数に上限があります。 

 

 

 レスポンスの制限： AIが1回のレスポンスで生成できるトークン数にも上限があります。 

 

 

 実際の目安： 

 

 

 短いメッセージ（約50語）≈ 65〜70トークン 

 

 

 中程度の段落（約200語）≈ 265〜280トークン 

 

 

 長めのロールプレイのレスポンス（約500語）≈ 665〜700トークン 

 

 

 

 3種類のトークン 

 ISEKAI ZEROでAIとチャットする際、トークンは3つの形で使われます。 

 1. 入力トークン（Input Tokens） 

 

 

 AIに送信するプロンプトやメッセージ。 

 

 

 入力するコマンドや指示。 

 

 

 例：「冒険者たちに、自分は本物の悪魔ではないと説明しようとする。」 

 

 

 2. キャッシュトークン（Cache Tokens）―スマートメモリシステム 

 

 

 保存された過去の会話履歴。 

 

 

 キャラクターの詳細な説明や設定・背景情報。 

 

 

 世界観に関する情報や、その時点のシーンの状況。 

 

 

 これらを保存しておくことで、AIは毎回すべての状況を最初から読み直す必要がなくなります。 

 

 

 3. 出力トークン（Output Tokens） 

 

 

 AIが返答として生成するストーリーの内容。 

 

 

 キャラクターのセリフやレスポンス。 

 

 

 シーンの描写やナレーション。 

 

 

 

 会話におけるトークンの流れ 

 ステップ1：アクションを送信する 

 送信したプロンプトは、入力トークンとして処理されます。 

 例： 「ただの旅人だと衛兵たちを説得しようとする。」 

 ステップ2：AIがリクエストを処理する 

 AIはメッセージを読み取り、関連するキャッシュトークン（過去のストーリーの状況）とあわせて、現在の状況を理解します。 

 ステップ3：AIが返答する 

 AIはストーリーの続きを出力トークンとして生成します。 

 例： 衛兵はじっとこちらを見つめる。「普通の旅人に角は生えていない」と低くつぶやきながら、剣に手をかけた…… 

 ステップ4：重要な情報がキャッシュされる 

 AIはこのやり取りから重要な情報を自動的にキャッシュトークンとして保存し、次回以降に活用します。これにより、次のやり取りがより速く、より安くなります。会話履歴全体を再読み込みする必要がなく、重要な情報はすでに記憶されているためです。 

 

 なぜこれが重要なのか 

 

 

 入力＋出力 ＝ 直接コスト（1メッセージごとに発生する費用） 

 

 

 キャッシュ ＝ コスト削減（同じ情報の再処理による高コストを防ぐ） 

 

 

 会話が長くなるほどキャッシュ使用量は増えますが、全体的なコストは抑えられます。 

 

 

 各レスポンスはキャッシュされたメモリをもとに生成されるため、ストーリーが一貫して続きます。 

 

 

 

 メッセージによってコストが変わる理由 

 長さが似ているメッセージでも、コストが異なる場合があります。その理由を説明します。 

 

 キャッシュシステムはベストエフォート方式で動作する 

 AIは、会話履歴をキャッシュ（保存）することでコスト削減を試みます。 

 ただし、再利用できるのは有効なキャッシュのみです。キャッシュシステムは、現在のコンテキストに応じてベストエフォート方式で機能します。また、すべてのLLMモデルがキャッシュに対応しているわけではありません。 

 重要： キャッシュされたトークンは、通常の入力トークンに比べて大幅に安く処理されることがありますが、割引率は状況やモデルによって異なります。 

 

 キャッシュによるコスト削減の例 

 会話の処理に 10,000入力トークン が必要だとします。 

 そのうち、AIが過去のやり取りから 8,000トークン をキャッシュとして再利用できた場合、結果としてその 8,000キャッシュトークン は、通常価格のごく一部（多くの場合は10％未満ですが、変動する場合があります）で処理されます。 

 節約の内訳： 

 

 

 2,000の通常入力トークン ＝ 通常料金 

 

 

 8,000のキャッシュトークン ＝ 大幅割引（割引率は変動） 

 

 

 合計：10,000トークンすべてを通常料金で処理する場合と比べて、大幅に安くなります。 

 

 

 

 キャッシュの有効性が変わる理由 

 キャッシュが有効に機能する場合： 

 ✅ アクティブにチャットしている（最後のメッセージから5分以内）  

 ✅ 会話履歴が変更されていない。 

 ✅ キャラクターの詳細が変更されていない。 

 ✅ 過去のメッセージを編集していない。 

 キャッシュが失われる、または効果が下がる場合： 

 ❌ 5分以上操作がない（キャッシュが期限切れになる）  

 ❌ 過去のメッセージを編集した（その時点以降のキャッシュが無効になる）  

 ❌ キャラクターの詳細を変更した（コンテキストが変わる）  

 ❌ 過去の会話内容が変更された 

 ❌ AIプロバイダー側でサービス障害が発生している 

 

 5分ルール 

 キャッシュは操作がない状態が5分続くと期限切れになります。 

 

 

 5分以内に返信した場合 → キャッシュが有効 → 低コスト 

 

 

 5分以上空いた場合 → キャッシュが期限切れ → 入力トークンが通常料金で計算される 

 

 

 休憩後にコストが上がることがあるのはこのためです。AIはすべての情報を通常料金で再読み込みする必要があります。 

 

 まとめ 

 キャッシュシステムはコスト削減を目的としていますが、以下の条件が必要です： 

 

 

 継続的なやり取り（5分以内の返信） 

 

 

 会話履歴を編集しないこと 

 

 

 キャラクター情報を変更しないこと 

 

 

 

 コストを抑えるためのヒント： 

 

 

 キャッシュを維持するために5分以内に返信する 

 

 

 できるだけ過去のメッセージを編集しない 

 

 

 チャットを始める前にキャラクターの詳細を決めておく 

 

 

 細かい休憩を何度も取るより、セッション間にまとめて長い休憩を取る 

 

 

 

 キャッシュは「ベストエフォート方式」であり、保証されるものではありません 

 キャッシュはベストエフォート方式で動作しており、常に成功が保証される仕組みではありません。制御できないさまざまな要因によって、キャッシュが機能しない場合があります。 

 キャッシュが予期せず機能しなくなる原因： 

 

 

 サーバー側の要因 —  アクセス集中、メンテナンス、システム更新などにより、AIプロバイダー側でキャッシュがクリアされる場合があります。 

 

 

 モデルのルーティング — リクエストが、キャッシュデータを保持していない別のサーバーインスタンスで処理される場合があります。 

 

 

 インフラの変更 —  バックエンドの更新や負荷分散によって、既存のキャッシュが無効になることがあります。 

 

 

 トークン制限 — 会話が長くなりすぎると、古いキャッシュ内容が削除される場合があります。 

 

 

 プロバイダーのポリシー —  キャッシュの扱いはAIプロバイダーによって異なり、事前の告知なく変更されることがあります。 

 

 

 注意点： 

 すべての条件を満たしていても（5分以内の返信、メッセージの編集なしなど）、キャッシュミスによってコストが高くなる場合があります。これは異常ではなく、分散型AIシステムの仕組みによる通常の動作です。 

 要点： キャッシュは、全体として見るとコスト削減に役立ちますが、個々のメッセージに必ず適用されるわけではありません。そのため、「通常は適用される可能性がある割引」として捉え、常に保証されるものではないとご理解ください。 

 

 トークンコストの計算方法 

 例：DeepSeek V3.2 の場合 

 

 

 

 

 

 種別 

 

 

 単価 

 

 

 

 

 入力トークン 

 

 

 100万トークンあたり 29.4マナ／アルケイン 

 

 

 

 

 出力トークン 

 

 

 100万トークンあたり 44.1マナ／アルケイン 

 

 

 

 

 

 

   

 トークン内訳：合計 61,810トークン 

 

 

 プロンプトトークン：61,608 

 

 

 

 キャッシュ済み：30,784 

 

 

 新規入力：30,824（61,608 − 30,784） 

 

 

 

 出力トークン：202 

 

 

 コスト計算： 

 

 

 新規入力トークンのコスト ＝ (30,824 ÷ 1,000,000) × 29.4 ＝ 0.9062256 マナ 

 

 

 キャッシュトークンのコスト ＝ (30,784 ÷ 1,000,000) × 2.94 ＝ 0.09050496 マナ 

 

 

 出力トークンのコスト ＝ (202 ÷ 1,000,000) × 44.1 ＝ 0.0089082 マナ 

 

 

 合計：1.00563876 マナ 

 

 

 

 もし61,608プロンプトトークン すべて が 通常料金 で請求された場合： 

 

 

 入力トークンのコスト ＝ (61,608 ÷ 1,000,000) × 29.4 ＝ 1.8112752 マナ 

 

 

 出力トークンのコスト ＝ (202 ÷ 1,000,000) × 44.1 ＝ 0.0089082 マナ 

 

 

 キャッシュなしの場合：1.8201834 マナ 

 

 

 節約されたトークンコスト：0.8147958 マナ（44.75%削減） 

 

 トークンの種類まとめ 

 

 

 

 

 

 項目 

 

 

 入力トークン 

 

 

 キャッシュ読み取りトークン 

 

 

 出力トークン 

 

 

 

 

 説明 

 

 

 送信する内容 

 

 

 AIが記憶している内容 

 

 

 AIが生成する内容 

 

 

 

 

 コスト 

 

 

 中程度 

 

 

 非常に安い 

 

 

 最も高い 

 

 

 

 

 理由 

 

 

 AIがテキストを読み取る 

 

 

 AIが保存済みの内容を再利用する 

 

 

 AIが新しい内容を生成する