データ品質

前回の記事では、データベースとはデータの集合であること、情報とは「ある目的のために役立つデータ、あるいはデータを基に加工されたもの」であるということを解説しました。今回はデータの品質について考えてみます。

あらゆるビジネスにおいて、有益な情報を得るためにはたくさんのデータが必要であり、それらのデータは最も重要な資産と言えるでしょう。しかしそれは、データの「品質」が高いということが前提となります。

いくらデータを集めてもデータの品質が低ければ、そこから情報を得ることはできません。

では、品質の高いデータとは具体的にどのようなデータを指すのでしょうか。それは、データを特定の用途に適したものとする完全性、正確性、妥当性、一貫性、適時性が満たされているものと言えます。

完全性 データが全て揃っていて欠損や不整合がないこと。
正確性 データが正確であること。(当たり前のことですが、とても重要なことです。例えば「入力ミス」があったデータは意味がないどころか害をなすデータになってしまいます。)
妥当性 データが正しい前提から導き出されていること。
一貫性 データに矛盾がないこと。
適時性 データ収集や使用するタイミングなど、それをするのにふさわしいタイミングであること

「○○性」という言葉をあえて使用していますが、この表現はかなり曖昧です。例えば、あるところでは正当性や信頼性などと表現されていることもあります。

ここで言いたいことはつまり、「品質が高いデータ」とは「データに偏りがなく正確であり新しいデータ」ということです。不正確で整合性が取れず、古くなってしまったデータは品質が悪いと言えます。例えば、20年前に収集したデータをニーズがまったく異なる現代で新商品開発のデータとして活用しようとしても意味はないでしょう。

より価値のある使いやすい情報としてデータを利用するためには、上述の条件を満たす必要があるということです。