ここ数日はRDFa Lite 1.1 , JSON-LD 1.0, セマンティックタグを勉強しつつ、Wordpressデータベースから静的コンテンツを作るコードを書いているが、まだ完成していない。
この辺ももちろん疎いので勉強しつつということになる。ようやく本質的な部分の概要が理解できつつあるというところだ。浅いな。。
ざっくりいうと、
- 意味づけというのはコンピュータに対してコンテンツが何を表しているのを理解させるために、公に意味づけされた語彙でカテゴライズ(マークアップ)することである。
- コンテンツに属性を付けるお作法がRDFa Lite,jsond-ldである。microdataやRDFaもそう。
- 属性値としての語彙は各種団体により作られている。schema.orgもその1つである。
- ユーザーはschema.org等が定めている語彙を属性値ととしてRDFa Lite,json-ldのお作法に従い属性を付与する。
- 検索エンジンに対してコンテンツの意味を正確に伝えることが意味づけの具体的な実用例である。
ただ意味づけを行うことはコンテンツ作成側にとっては記述する内容が増えるということである。なので入力支援をある程度コンピュータで行ってあげるということも必要だと思う。 私が考えているのはMeCab: Yet Another Part-of-Speech and Morphological Analyzerを使用して固有名詞を取り出して語彙にマッチングさせられないかなとか考えている。今のコンテンツに語彙を手動で付けたり、外部リソースで語彙と固有名詞の結びつけデータを取得し、コンテンツを作成する際に自動的に属性を付与できないかなと考えている。
もともとこのあたり、HTMLにおけるメタデータの記述方法とも関連している。HTML5のセマンティックなタグ(section/article/header/footer)等もある。HTML5のセマンティックなタグは主に文書構造という部分にスコープされているので一般的な意味づけには不足しているので、RDFa Lite,jsond-ld等で別途意味づけを行う必要がある。
今の流れとしてはW3C勧告となったRDFa Lite,jsond-ldのようなので、私もその流れ+HTML5のメタデータ・セマンティックタグで構成していくことにする。
既存コンテンツは上記に倣っていないので少なからず変換や手修正が必要であるがそれはやむを得ないかなと考えている。