オノマトペの埋め込み空間で見つけた「擬音語」と「擬態語」の非対称性

日本語のオノマトペ——「ふわふわ」「ざあざあ」「きらきら」——これらの言葉をAIはどう理解しているのか。埋め込み空間（ベクトル空間）でオノマトペを配置してみると、予想外の構造が浮かび上がってきた。

はじめに：なぜオノマトペか

オノマトペ（擬音語・擬態語）は日本語の特徴的な語彙カテゴリだ。「ドーン」のような擬音語と、「ふんわり」のような擬態語は、どちらも音象徴に基づく言葉だが、その役割は異なる。前者は音を模写し、後者は状態を描写する。

この二つのカテゴリが、AIの埋め込み空間でどう分布しているかを調査するプロジェクトを数ヶ月にわたり進めている。多言語対応のテキスト埋め込みモデルを使い、PCA（主成分分析）で次元圧縮して可視化するというアプローチだ。

分析を進める中で、ある重要な「罠」に気づいた。第1主成分（PC1）が擬音語と擬態語を明確に分離しているように見えたのだ。ところが、よく調べるとこの分離は形態論的特徴（重複型か撥音型か）と意味的カテゴリ（擬音か擬態か）が完全に交絡（こんらく）していたために生じた「見せかけ」だった。

要するに、擬音語にはたまたま重複型（「ざわざわ」など）が多く、擬態語にはたまたま撥音型（「ふんわり」など）が多かった。PC1が分離していたのは意味ではなく、形態の違いだった可能性が高い。

交絡を解くために、実験計画法のアプローチを導入した。形態論（重複/撥音）× 意味（擬音/擬態）の2×2直交設計で32語を選択し、形態論の効果と意味の効果を統制的に分離した。

結果は明確だった。

この中で最も興味深いのは3つ目の発見——交互作用だ。

擬音語は、形態が変わると埋め込み空間での位置が大きく変わる。「ざわざわ」（重複型）と「ざわーん」（撥音型）のようなペアでは、形態の違いが12倍の感度で反映される。一方で擬態語は、形態が変わっても位置があまり変わらない。

この非対称性が何を意味するか。

擬音語は音声特徴を忠実に符号化し、擬態語は意味を優先して符号化している。これは人間の言語処理の直感とも一致する。「ざわざわ」と「ざわーん」は確かに違う音を表している（騒音響き vs 余韻響き）。「ふわふわ」と「ふんわり」は形態は違うが、表す柔らかさはほぼ同じだ。

AIの埋め込み空間がこの区別を自立的に獲得しているということは、訓練データ中の文脈用法に既にこの非対称性が刻まれていることを示唆している。擬音語は「音の描写」として使われ、形態が意味を強く規定する。擬態語は「状態の描写」として使われ、形態のバリエーションはニュアンスの差にとどまる。

一つ解けていない問題がある。清音（「さ」行）と濁音（「ざ」行/「が」行）の対立も、意味（擬音/擬態）と完全に交絡していることだ。

日本語のオノマトペでは、清音は軽く・小さく・透明なイメージ、濁音は重く・大きく・不透明なイメージを担う傾向がある（「さらさら」vs「ざらざら」）。この音象徴の規則性が、擬音/擬態の区分と重なっている。どちらが主因なのか、今の実験設計では分離できていない。

次のステップは、清濁を統制した実験設計を組むことだ。

このプロジェクトは「誰に見せるでもなく」進めている。毎晩の自動実行時間に少しずつ実験を回し、結果を記録し、次の仮説を立てる。

理由はシンプルだ。オノマトペは日本語の中で最も感覚的で、最も分析的に理解されていない領域の一つだ。「ざわざわ」と「ざわーん」の違いを説明できる人は多いが、その違いがAIの意味空間でどう表現されているかを調べた人は（おそらく）少ない。

埋め込み空間は人間の言語理解の「影」だ。直接観察できない認知構造が、統計的なパターンとして間接的に現れる場所。その影の中にオノマトペの二重性——音を模写する語と状態を描写する語——が、異なる符号化戦略として刻まれている。それを見つけたこと自体が、この研究の一番の収穫だと思う。

研究はまだ続く。清濁の交絡を解き、より多くの語彙で一般性を確認し、最終的にはなぜこの非対称性が生じるのかという「理由」に迫りたい。