Architecture Update: Late 2024 / 2025

なぜ、あなたのプロダクトのAIは
「会話」を忘れるのか？

Googleの長期記憶アーキテクチャ「Titans」が解決する
コストとコンテキストのジレンマを、PM視点で徹底解説。

コスト構造の革命

文脈が長くなっても推論コストが増えない「O(1)」アクセスを実現。

真の「学習」

過去の情報をバッファに溜めるのではなく、重み(Weights)として記憶する。

200万+ トークン

超長文脈でも精度が落ちない「Needle in a Haystack」性能。

音声解説

この記事の内容を音声で聴くことができます

ビジネスのボトルネック：コンテキストコスト

PMとして最も頭を悩ませるのは「トークン課金」と「レイテンシ」です。従来のTransformer（GPT-4等）は、会話履歴が増えるたびに、その全文を再計算しています。これは、ユーザーが使い込むほどサービスの利益率が悪化することを意味します。

コンテキスト長 vs 推論コスト

トークン数が増えた時のサーバー負荷比較

PM Insight: Transformerモデルでは、100万トークンを超えると計算量が爆発し、実用的な応答速度・コストを維持できません。

メンタルモデル：RAMとハードディスク

Titansはどのようにしてコストを下げているのでしょうか？技術的な詳細（ディープニューラルネットワーク）はエンジニアに任せ、 PMは「情報の扱い方」を理解しましょう。

従来のモデルが「全ての過去を短期記憶（RAM）に展開する」のに対し、Titansは「重要な概念を長期記憶（Neural Memory）に圧縮・保存」します。

INPUT STREAM

ユーザーの会話
ドキュメント

➔

TITANS ARCHITECTURE

Core (Attention)

「現在」の文脈を処理する短期記憶。直近の会話の流れを維持する。

Role: Context awareness
Span: Short

Neural Memory

過去の膨大なデータから「驚き（Surprise）」を学習し、モデルのパラメータ（重み）自体を更新して記憶する。

Role: Memorization
Cost: O(1) Constant

体験：MIRAS（記憶と学習）のプロセス

Titansの学習プロセス「MIRAS」を簡略化して体験しましょう。情報はまず「バッファ」に入り、溢れると「重み（長期記憶）」に圧縮されます。従来のAIはバッファを延々と伸ばすだけですが、Titansは「学習して忘れる（圧縮する）」ことで効率化します。

Input Simulator

※ 入力するたびに「短期バッファ」が埋まります。バッファが一杯になると、古い記憶が「長期記憶（重み）」に圧縮されます。

短期バッファ (Attention) 0/3

No data in context

長期記憶 (Neural Weights)

Mechanism: Gradient Update

Model Parameters (θ)

Learning...

Point: データ量が増えても、この「重み」のサイズは一定です。これがコスト削減の秘密です。

PMのための戦略的ユースケース

この技術は、単なる「コスト削減」以上の価値をプロダクトにもたらします。

生涯パートナーAI

ユーザーの数ヶ月、数年にわたる会話、好み、ライフイベントを全て記憶し続けるパーソナルエージェント。

Impact: Churn Rate低下
Tech: 永続的なNeural Memory

エンタープライズ脳

社内の全ドキュメント、Slack履歴、メールを読み込ませ、RAG（検索）なしで即座に文脈を踏まえた回答を生成。

Impact: 検索精度向上
Tech: 2M+ Context Window

大規模コード解析

リポジトリ全体の依存関係を理解した状態でのリファクタリング提案。ファイル間の飛び地にあるバグも特定可能。

Impact: 開発効率化
Tech: Needle in a Haystack

検索精度 (Needle In A Haystack)

「干し草の中の針」テストにおいて、Titansはコンテキスト長が伸びても精度を維持します。

Titans: 200万トークンでも高精度を維持
Others: 長くなるほど「幻覚」や「忘却」が発生

PMのアクションプラン

Titansアーキテクチャの登場は、AIプロダクトの「記憶」に関する制約を取り払います。 2025年のロードマップには、以下の検討を含めるべきです。

🔄 RAG戦略の見直し 👤 ユーザーコンテキストの永続化 📉 トークンコスト予測の修正

技術用語解説

この記事で使用されている技術用語を、PM・ビジネス視点で丁寧に解説します。エンジニアとの会話や、経営層への説明に役立ててください。

Titans (タイタンズ)

定義: Googleが開発した、テスト時（推論時）に学習する新しいニューラルネットワークアーキテクチャ。

PM視点: 従来のAIは「訓練済み」のモデルを使うだけでしたが、Titansは「使いながら学習し続ける」ことができます。これにより、ユーザーごとにカスタマイズされた体験を、追加の訓練コストなしで提供できます。

具体例: チャットボットが、あなたとの会話を重ねるごとに、あなたの好みや話し方を「その場で学習」して、より自然な応答をするようになる。

Transformer (トランスフォーマー)

定義: GPT-4やClaude、Geminiなど、現在主流のAIモデルが採用している基本アーキテクチャ。「Attention機構」により、文章全体の関係性を理解する。

PM視点: 非常に高性能ですが、「入力が長くなるほど計算コストが指数関数的に増える」という致命的な欠点があります。これが「長い会話ができない」「コストが高い」問題の根本原因です。

具体例: 100ページの契約書を読ませると、1ページの時の100倍以上のコストがかかる（実際はもっと悪い）。

Neural Memory (ニューラルメモリ)

定義: AIモデルの「重み（パラメータ）」そのものに情報を記憶させる仕組み。従来の「コンテキストウィンドウ（短期記憶）」とは異なる。

PM視点: パソコンで例えると、「RAM（メモリ）」ではなく「ハードディスク」に保存するイメージ。一度学習した情報は、何度アクセスしてもコストが増えません。

具体例: ユーザーが「私は猫アレルギーです」と言ったことを、モデルの重みに焼き付けて永続的に記憶。次回以降、毎回その情報を入力し直す必要がない。

Attention (アテンション機構)

定義: 文章の中で「どの単語とどの単語が関連しているか」を計算する仕組み。Transformerの核心技術。

PM視点: 「短期記憶」として機能します。直近の会話の流れを理解するのに使われますが、長くなると計算が重くなります。

具体例: 「彼は走った。彼は疲れた。」という文で、2つ目の「彼」が1つ目の「彼」と同じ人物だと理解する仕組み。

O(1) アクセス

定義: 計算量理論の用語。データ量が増えても、アクセス時間が「一定（Constant）」であることを示す。

PM視点: これは「スケーラビリティの聖杯」です。ユーザーが100倍使っても、サーバーコストが100倍にならない、ということを意味します。

具体例: 辞書で単語を引く時、辞書が薄くても分厚くても、目次から探す時間はほぼ同じ。これがO(1)。一方、最初から全ページ読むのはO(n)（データ量に比例）。

トークン (Token)

定義: AIが文章を処理する際の最小単位。英語では単語単位、日本語では文字や部分単語単位で分割される。

PM視点: API料金の課金単位です。「1000トークンあたり$0.01」のような形で価格が設定されます。日本語は英語より多くのトークンを消費するため、コストが高くなりがちです。

具体例: 「こんにちは」は約3トークン。「Hello」は1トークン。長い会話履歴を毎回送ると、トークン数が爆発してコストが跳ね上がります。

コンテキストウィンドウ (Context Window)

定義: AIが一度に「覚えていられる」情報の量。トークン数で表される（例: 128k = 約12万8千トークン）。

PM視点: これが製品の「記憶力」の限界です。GPT-4は128k、Claude 3は200kなど、モデルによって異なります。この範囲を超えると、古い情報を「忘れ」ます。

具体例: 128kトークンは、日本語で約10万文字（小説1冊分）。それを超える会話をすると、最初の方の内容を忘れてしまいます。

レイテンシ (Latency)

定義: リクエストを送ってから応答が返ってくるまでの「遅延時間」。ミリ秒（ms）や秒（s）で測定される。

PM視点: ユーザー体験の生命線です。3秒以上待たせると離脱率が急上昇します。コンテキストが長いと、レイテンシも増加します。

具体例: チャットで質問して、回答が表示されるまでの「待ち時間」。Transformerは長文になると10秒以上かかることも。

Needle in a Haystack (干し草の中の針)

定義: 膨大な情報の中から、特定の小さな情報を正確に見つけ出せるかを測るベンチマークテスト。

PM視点: 「長文を読ませても精度が落ちないか」を測る指標です。多くのモデルは、コンテキストが長くなると「幻覚（Hallucination）」を起こしたり、重要な情報を見落とします。

具体例: 1000ページのマニュアルの中に「製品番号XYZ-123は生産終了」という1文だけ埋め込んで、AIが正確に見つけられるかテストする。

MIRAS (Memory-In-Recurrent-Attention-with-Surprise)

定義: Titansが採用している学習アルゴリズム。「驚き（Surprise）」に基づいて、重要な情報を選別して記憶する。

PM視点: 人間の記憶と同じで、「予想外のこと」「重要なこと」だけを長期記憶に残します。これにより、無駄な情報で記憶容量を圧迫しません。

具体例: ユーザーが「私は犬派です」と言った後に「実は猫も好きです」と言うと、「驚き」が大きいので強く記憶される。

Weights (重み / パラメータ)

定義: ニューラルネットワークの「知識」そのもの。数億〜数兆個の数値で構成される。

PM視点: これが「モデルの脳」です。通常は訓練時にしか変更されませんが、Titansは推論中（使用中）にも更新できます。これが「学習し続けるAI」の秘密です。

具体例: GPT-4の重みは約1.8兆個。これらの数値の組み合わせが、言語理解能力を生み出しています。

Gradient Update (勾配更新)

定義: ニューラルネットワークが「学習」する際の数学的プロセス。誤差を計算し、重みを少しずつ調整する。

PM視点: 「フィードバックを受けて改善する」プロセスです。Titansはこれをリアルタイムで行うため、ユーザーとの対話から即座に学習できます。

具体例: 「この回答は役に立たなかった」というフィードバックを受けて、次回同じ質問が来た時により良い答えを出せるように重みを調整する。

Surprise (驚き / 予測誤差)

定義: モデルの予測と実際の入力の「ズレ」の大きさ。情報理論における「情報量」に相当。

PM視点: 「予想外の情報ほど重要」という原則に基づいています。MIRASはこの「驚き」が大きい情報を優先的に記憶します。

具体例: 「今日は晴れです」（驚き小）より「今日は雪が降りました」（驚き大）の方が強く記憶される。

Buffer (バッファ / 短期記憶)

定義: 一時的に情報を保持する領域。Titansでは、長期記憶に圧縮される前の「待機場所」として機能。

PM視点: パソコンのRAMに相当します。直近の会話はここに保持され、一杯になると古い情報が「長期記憶（重み）」に圧縮されます。

具体例: 直近3ターンの会話はバッファに保持。4ターン目が来ると、1ターン目の内容が重みに圧縮されて、バッファからは消える。

RAG (Retrieval-Augmented Generation)

定義: AIに外部データベースから情報を「検索」させて、その結果を元に回答を生成させる手法。

PM視点: 現在の主流アプローチですが、「検索精度」に依存します。Titansは長期記憶を持つため、RAGなしでも膨大な情報を扱えます。

具体例: 社内FAQシステムで、質問が来たら関連ドキュメントを検索し、その内容を元に回答を生成する。

Churn Rate (解約率)

定義: サブスクリプションサービスで、ユーザーが解約する割合。

PM視点: Titansのような「記憶するAI」は、ユーザーとの関係性を深めるため、Churn Rate低下に直結します。「このAIは私のことを理解している」という体験が、ロイヤリティを生みます。

具体例: 月額1000円のAIアシスタント。記憶機能がないと「毎回自己紹介が必要」で解約されやすいが、記憶があれば継続率が上がる。

Hallucination (幻覚 / ハルシネーション)

定義: AIが事実ではない情報を、あたかも真実のように生成してしまう現象。

PM視点: 信頼性を損なう最大のリスクです。長いコンテキストや、記憶が曖昧な情報で発生しやすくなります。Titansは精度を維持することで、これを抑制します。

具体例: 「2024年のノーベル物理学賞受賞者は？」と聞かれて、実在しない人物名を自信満々に答えてしまう。

Inference (推論)

定義: 訓練済みのモデルを使って、実際に予測や回答を生成する処理。「本番運用」のこと。

PM視点: これがAPI料金の対象です。訓練（Training）は一度きりですが、推論は使われるたびに発生するため、コスト最適化が重要です。

具体例: ChatGPTに質問を送って回答を得る行為が「推論」。この1回ごとにOpenAIはサーバーコストを負担しています。

Test Time (テスト時 / 推論時)

定義: モデルが実際に使用される時点。訓練（Training Time）の対義語。

PM視点: Titansの革新性は「Test Timeに学習する」点です。従来は「訓練済みモデルを使うだけ」でしたが、Titansは使いながら進化します。

具体例: 学生が「試験中（Test Time）に教科書を読んで学習する」ようなもの。通常は「試験前（Training Time）に勉強して、試験中は覚えたことを使うだけ」。

クイックリファレンス：従来 vs Titans

項目	従来 (Transformer)	Titans
記憶方式	コンテキストウィンドウ（短期記憶のみ）	Neural Memory（長期記憶）
コスト構造	O(n²) - 指数関数的に増加	O(1) - 一定
最大コンテキスト	128k〜200k トークン	2M+ トークン
学習タイミング	訓練時のみ	推論時も学習
長文精度	長くなると劣化	維持
ユースケース	短期的な対話、単発タスク	生涯パートナーAI、企業知識ベース

なぜ、あなたのプロダクトのAIは 「会話」を忘れるのか？