Algorithm Music Dev Log

名前の確定 — TRIVIUMとは何か

Definition

TRIVIUM

中世リベラル・アーツ「初級三科」の音響AI転用

相反する正当性を持つ複数の評価主体が、協議によって単一の解に収斂するための統治構造。中世リベラル・アーツの初級三科（文法・論理・修辞）を音響AIの3エージェントとして再定義した問題の構造が要請した固有名詞。

エージェント	役割
GRAMMATICA	物理法則の番人 Jiles-Atheronモデル、BS.1770-4規格、クリップ防止——音が破綻しないための文法を監視する
LOGICA	楽曲構造の解釈者 GRAMMATICAが抽出したスキャンデータを読み解き、Intro→Drop→Outroのエネルギー転換を論理的に構築する
RHETORICA	美学的表現の演出家真空管の倍音、高域の煌びやかさ——聴き手を説得するための感性的パラメータを担当する

エヴァとの接点は「3つの独立した意思が競合しながら1つの結論を出す」という構造的類似だけだ。 TRIVIUMはその名前を継承しつつ、エヴァという出典を完全に切り離す。問題の形がこの名前を要求した——それで十分だ。

前提 — オマージュではなく必然

TRIVIUMをマスタリングに適用することを、最初に聞いた人間は「中世の学問をなぜ今」と受け取るかもしれない。違う。

音響工学の観点から見ると、マスタリングという作業は構造的に合議を必要とする。単一のエージェントが「これが最適解だ」と断言できる種類の問題ではない。

マスタリングにおける「正解」は常に複数存在し、それらは互いに矛盾する。これは設計上の欠陥ではなく、音楽という対象物の本質的な性質だ。

3つの相反する正解

マスタリングが常に揺れ動く3つの軸がある。それぞれが「正しい」。そして3つ同時に最大化することはできない。

エージェント	主張する正解	その代償
GRAMMATICA	工学的妥当性 — LUFS, True Peak, 位相整合, BS.1770-4規格準拠	数値を厳守すると迫力が消える
LOGICA	構造的整合性 — 展開の繋がり, 低域の安定, セクション間の一貫性	綺麗にまとめすぎると個性が消える
RHETORICA	感性的美学 — 高域の煌びやかさ, 楽曲固有の毒, 聴衆の感情反応	派手にしすぎると耳が疲れる
Balthasar（構造番人）	構造的整合性 — 展開の繋がり, 低域の安定, セクション間の一貫性	綺麗にまとめすぎると個性が消える
Casper（感性）	感性的美学 — 高域の��びやかさ, 楽曲固有の毒, 聴衆の感情反応	派手にしすぎると耳が疲れる

この3つは常にトレードオフの関係にある。GRAMMATICAを最大化するためにRHETORICAを犠牲にすれば、規格準拠の退屈なマスタリングができあがる。RHETORICAを暴走させればLOGICAが警報を鳴らす。

ナッシュ均衡として形式化する

この3者の合議をゲーム理論で記述すると、求める解はナッシュ均衡になる。どのエージェントも、他のエージェントの戦略を所与として、自分の戦略を単独で変更してもそれ以上に効用が改善しない点だ。

Consensus = argmax
p ∈ ParameterSpace
∏ U_i(p)
i ∈ { GRAMMATICA, LOGICA, RHETORICA }

各エージェントの効用関数 U_i(p) は、パラメータ p に対して「自分の評価軸からどれだけ満足できるか」を返す。積を最大化するのは、1つのエージェントが0に近い評価をすると積全体がゼロに収束するためだ——つまり拒否権を内包した設計になっている。

この拒否権こそが「do_not_damage リスト」の数学的根拠になる。LOGICAが「このセクションの低域密度は絶対に下げるな」と指定した場合、それは U_LOGICA(p) → 0 の実装だ。

3エージェントの役割定義

具体的なモデルへの役割固定は以下の通り。これは変更しない——モデルをローテーションすると役割の一貫性が崩れる。

GRAMMATICA物理法則の番人GPT-5.4

LUFS・TP・位相・スペクトラムバランスの工学的妥当性を担保する。数値根拠なき提案を拒否する役割。

LOGICA楽曲構造の解釈者Claude Opus 4.6

楽曲の展開・構造・セクション間の文脈的整合性を監視する。フラットニングや個性の消失に拒否権を持つ。

RHETORICA美学的表現の演出家Gemini Pro 3.1

楽曲固有の美学・ジャンル的期待値・聴取体験の感性的側面を評価する。「規格準拠だが無個性」な解を否決する。

BalthasarStructure GuardClaude Opus 4.6

楽曲の展開・構造・セクション間の文脈的整合性を監視する。フラットニング��個性の消失に拒否権を持つ。

CasperForm AnalystGemini Pro 3.1

楽曲固有の美学・ジャンル的期待値・聴取体験の感性的側面を評価する。「規格準拠だが無個性」な解を否決する。

フィールド別重み付けも役割に対応する。 macro_form は RHETORICA が主導（0.50）、whole_track_targets は GRAMMATICA が主導（0.55）、 failure_conditions は LOGICA が主導（0.50）——自分の専門領域で発言力が最大になる構造だ。

「アホなAI」はなぜ失敗し続けたか

大手マスタリングAIサービスが「アップローダー」に固執し続けた根本原因は、彼らがマスタリングを「変換」として理解していたことにある。

彼らの思考モデル：

音源を投げる→フィルタを通す→音が出る

※ 画像にフィルタをかけるのと同じ発想。だからアップローダーが中心になる。

この視点では、AI の役割は「どのフィルタを適用するか」の選択に過ぎない。プリセットが増え、パラメータ調整 UI が増えても、本質は変わらない——音楽的判断を「知能」ではなく「テンプレートのマッチング」として扱っている。

彼らが永遠に解けない問題がある。「このトランジションで低域を持ち上げるべきか、それとも次のドロップに備えて抑えるべきか」——これはフィルタに答えられない。文脈と構造と美学を同時に参照した上での判断だからだ。

変換 vs 知能の議論プロセス

aimastering.dev の視点はここが根本的に異なる：

従来型（変換モデル）	aimastering.dev（合議モデル）
音源 → フィルタ → 出力	音源 → スキャン → 知識化
プリセット or パラメータ選択	3エージェントによる多角的議論
静的な変換ロジック	ナッシュ均衡への収束プロセス
「どのフィルタか」が問い	「何を最大化し何を犠牲にするか」が問い
アウトプットは音声	アウトプットは目標仕様書（formplan）
DSPは固定プリセット	DSPはセクション別動的パラメータ

ユーザーが299ドルを払ってでも手に入れたい「ソースコード」の本質は、この「知能の議論プロセス」そのものだ。フィルタのパラメータではなく、3者が何をどう議論し、どの解に収斂したかの論理構造。

次の問い — ControlLayerとVisualisation

この議論の末尾で2つの問いが残った：

問い A — ControlLayer実装

GRAMMATICAがスキャンした膨大な数値を、どうやってTRIVIUMの3エージェントに効率よく「分配」し、対立させ、最終的な14ステージのDSPノブ（Transformerの飽和度・Tubeのバイアス値など）に変換するか。「Control Layer」の具体的な実装ロジック。

問い B — プレイグラウンドでの可視化

TRIVIUMの議論プロセスをプレイグラウンドでどう視覚化し、プリセット型との違いをユーザーに理解させるか。 GRAMMATICA・LOGICA・RHETORICAの主張・対立・収束を1画面で示すUI設計。

どちらもTRIVIUMの工学的必然性を外部に証明するための手段でもある。次の投稿では問い A から着手する——ControlLayerの入出力インターフェース設計から始める。

← Dev Log 一覧次回: ControlLayer — formplan → DSPパラメータ変換の設計