キーワード分析による発信者別WWWコンテンツ量の推計

内田 斉(アライド・ブレインズ)

>>プレゼンテーション資料のpdf版(39KB)はこちらから

1 はじめに

WWW用語集へは、個人が自由に不特定多数への情報発信を行えるという点で、従来のマスメディアとは大きく異なるメディアである。今日のWWWにおいて、いわゆる「個人ホームページ」は重要な構成要素になっていると言える。

しかし、個人ホームページが実際にどれくらい存在しているのかについては、これまで、定量的なデータが全く存在していなかった。その理由は、個人・企業・公共団体・学校といった情報発信者の分類と、WWWの基本的な分類項目であるac,co,ne,or等のドメイン分類とが対応していないためである。特に個人ホームページは、ne、co、orなど複数のドメインに分散しており、ドメイン別の統計データからは個人ホームページの概数すら推定することができない。

本研究では、サーチロボットを使って大量に収集したWWWコンテンツの内容分析をもとに、個人・企業・自治体・学校の4種類の情報発信者別WWWページ数の推計を試みた。これによって、初めて、jpドメイン内の個人ホームページの概数を把握することに成功した。

2 調査および推計の方法

個人ホームページや学校ホームページ等は、ドメイン名やURL用語集へからその情報発信者の分類を行うことはできない。そこで本研究では、各ページが提供するテキスト情報に注目した。特定の情報発信者が発信しているウェブサイトでのみ出現率が高い単語を「識別用キーワード」として特定し、ウェブ全体での識別用キーワードの出現率や分布をもとに情報発信者別のWWWページ数を推計することとした。

調査は、大きく2段階に分かれる。2000年5月に実施した第1段階では、情報発信者の4カテゴリー(個人・企業・自治体・学校)毎に、該当するウェブサイトを各1000サイトずつリストアップし、そこに含まれるWWWページ(HTML用語集へファイル)を収集した。収集したWWWページにおける単語の出現率を解析し、特定のカテゴリーでのみ出現率が高い識別用キーワードを抽出した。

2000年9月に実施した第2段階では、jpドメインのウェブサイト10000サイトをランダムサンプリングし、対象サイト全体における識別用キーワードの出現率を調査した。ここで明らかになった識別用キーワードの出現率や出現パターンから、対象サイトに個人・企業・自治体・学校のホームページがそれぞれどれだけの比率で含まれているかを推計した。

3 調査結果と国内WWW総ページ数の推計

本調査で抽出した21個の識別用キーワードと、各カテゴリーのWWWページおよびランダムサンプリングしたサイトのWWWページでの出現率を表1に示す。表1の中のBを被説明変数、A1〜A4を説明変数として重回帰分析を行ったところ、0.95という高い決定係数を得た。この時の重回帰係数が、ほぼ各カテゴリーのWWWページの構成比に該当すると考えられる。2000年8月時点のjpドメイン総ページ数は約5570万ページと推定されているので、これに各カテゴリーの推定構成比を乗じると、個人ホームページは1600〜2100万ページ、企業ホームページ1300〜1800万ページと推計される。(図1)

WWW全体の中で個人ホームページが占める割合については、これまでほとんど手がかりがなかったが、本研究の結果、全体のおよそ1/3が個人ホームページであり、企業ホームページを上回るほどのコンテンツ量があることが分かった。ただし、この調査はサーチロボットを使って行ったため、CGI用語集へを使っている電子商取引サイトなどは調査対象範囲に含まれていない点に注意すべきである。

表1 抽出した識別用キーワードとその出現率
  識別キーワード ランダム抽出した
サイトでの出現率
企業サイト
での出現率
個人サイト
での出現率
自治体サイト
での出現率
学校サイト
での出現率
    B A1 A2 A3 A4
企業 01.株式会社 4.72% 13.47% 1.23% 1.40% 0.33%
02.代表取締役 0.50% 3.20% 0.05% 0.06% 0.05%
03.当社 1.35% 6.96% 0.27% 0.06% 0.00%
04.資本金 0.42% 2.81% 0.04% 0.15% 0.01%
05.当社 0.94% 2.48% 0.05% 0.01% 0.00%
個人 06.日記 2.83% 0.53% 7.47% 1.51% 1.00%
07.ファン 3.54% 1.30% 9.50% 0.92% 0.47%
08.チャット 0.92% 0.05% 3.70% 0.03% 0.24%
09.管理人 0.79% 0.11% 2.51% 0.15% 0.03%
10.ランキング 1.67% 0.13% 5.15% 0.13% 0.06%
11.ごめん 1.14% 0.03% 2.72% 0.12% 0.60%
自治体 12.役場 0.27% 0.20% 0.27% 12.76% 0.48%
13.特産 0.28% 0.55% 0.16% 11.10% 0.24%
14.広報 1.13% 1.44% 0.39% 10.92% 1.43%
15.人口 0.76% 0.69% 0.55% 6.86% 0.74%
16.町長 0.14% 0.06% 0.04% 5.67% 0.18%
17.市長 0.41% 0.64% 0.20% 3.56% 0.33%
学校 18.本校 0.20% 0.03% 0.01% 0.10% 14.55%
19.校長 0.26% 0.11% 0.16% 0.46% 9.50%
20.学年 0.63% 0.13% 0.55% 0.45% 13.02%
21.校歌 0.06% 0.00% 0.00% 0.07% 5.70%
表2 識別用キーワード出現率の重回帰分析結果
  係数 標準誤差 t P-値 下限95% 上限95%
企業 0.282 0.019 14.719 0.000 0.242 0.322
個人 0.334 0.022 15.408 0.000 0.288 0.379
自治体 0.026 0.014 1.863 0.080 -0.003 0.054
学校 0.021 0.013 1.539 0.142 -0.008 0.049

図1 発信者カテゴリー別のWWWページ数の推計結果 発信者カテゴリー別のWWWページ数の推計結果の図

マス・コミュニケーション学会秋季研究発表会報告 2001年10月