日本のインターネット人口・・・

日本のインターネット人口が9000万人超え、総人口普及率では75%超え
携帯電話からのアクセスが圧倒的に多いのと
中学生や高校生のブログが多いからだろうか・・・

それはおいておきます。
昔の記事ですが、今日、少し疑問に思ったので・・・

ネットをして、実際にブログを投稿する人がどのくらいいるのか
それはわかりませんが
どっかの記事で、ブログ人口が多いとして日本が取り出されていたのを
覚えています。


ブログとしてネット上に掲載することで
日本語を占める割合が世界的に増えている。
ひらがな カタカナ 漢字 ローマ字
この四つで形成される文。

話し言葉で書かれたものや

改行して書かれた書き方や
改行しないで詰めた書き方。
また、最後に「ですます」とか、つけたりつけなかったり。

例えば
 ボクは思うことがある、腹減った。

 思うんだ、ボク、腹減ったー

同じような意味だ
こういう文面がネット上にたくさんあるとして
検索エンジン側が、ちゃんと認識できているのか?
テキスト面だけを考えてだけどね。


なので


ゴミサイトが上位表示されたり
ゴミサイトをゴミサイトとして判断がつかないのも

もしかしたら、テキストを正しく認識できないのかな、と思います。


テキストだけが評価対処になるわけじゃないので
別に気にするような箇所でもないのかな、と思いますが・・・


それにおそらく、キーワードのカテゴライズが
検索エンジンのシステムに入っているのかな、と思います。


「携帯電話」だったら
ドコモ
au
ソフトバンク

などが関連している。とかだと思います。
iphoneも含まれ
アップルと関連もし、携帯電話としても関連し
スマートフォンとしての位置づけもされて


マジカルバナナ的な感じで
キーワード同士がリンクし会って
システムの中に自動保存されているのかな、と思う。


ゴミサイト生成者が作成する。

「ブランドのバッグといえば、ゴルフスイングと密接な関係があると
 ご存知だと思いますが」
という、サイトのテキストをマジカルバナナで

ブランド バッグ が関連し
ゴルフ ブランド が関連
バッグ スウィング が関連
 これに関しては、バッグ 名詞
            (ゴルフ)スウィング 固有名詞
という風に、位置づけられる可能性が・・・


推測ですが
こうなりかねないのかなと思います。


アンサイクロペディアで書かれていることが、いろんな検索結果の上位表示されたら、と思います。

中身は、笑いをとるために書かれた記述なので
文脈がめちゃくちゃではないので

文脈がめちゃくちゃでも上位表示されたら・・・



言語の壁が検索エンジンにあると思います。
がんばれ、検索エンジン