年金不備データ5000万件はどうやって生まれたか。怪しい計算でこじつける。
一般的にデータベースで、そのレコードが同一人物のものであることをどこで峻別するか。最良なのは、もちろんkeyとしてのIDを全人物に振ることであるが、それが難しければ、生年月日や電話番号、姓名ふりがな、あるいは住所や電子メールアドレス等の複合だろうか。レコードの量が、数百、数千、あるいは数万程度であれば、keyとしての統一IDがなくても、ある程度はこれで管理することができる。ところが、年金の支払受給記録のような、全国民を対象にするような巨大なデータベースの場合、どういうことが起きるか。戯れにモデルとして単純化して試算してみよう。
個人識別の手段としてもっとも使われやすい生年月日で考えてみる。対象は、この80年間に生まれたすべての国民とする。生年月日の組み合わせは幾通りあるか。(ここではうるう年はモデルから除く。また昨年生まれたばかりの乳幼児が自分で年金を支払うわけがないが、成人後にはその乳幼児のデータも問題になる可能性があるということで数値に含ませる。)1年間の生年月日は365通りであるから、80年間ではこれに年数をかければよいので、365X80=29200通りである。この80年間に生まれた国民が仮に1億人いるとすれば、1億人のすべてがこのどれかの誕生日に属していることになる。同一の誕生日に平均何人の国民が集中しているかというと1億÷29200≒3425人となる。
※以下怪しい計算が延々と続く。数字が超苦手な人と超得意な人はどちらも読まないように。。。
さて、この3425人の中に、同姓同名がどのくらいいるだろうか。簡単には試算できないけれども、敢えて強引に論を展開しよう。通常200名程度の1学年の生徒の中に同姓同名が1組いるかいないかだが、400名いれば1組はいるのではないかといういい加減な「生活実感」に基づくと、およそ同姓同名率は0.1%強。で、ここでも0.1%としてしまおう(笑)。3425名に対して3.4人。それを29200通りの誕生日に配分すると、29200X3.4=99280人。っていうか、これなら最初から1億人の0.1%で計算する10万人という結果とほぼ変わらないことになるか。まあ、そもそも「生活実感」から算出するための回り道だったということでご勘弁。
#あるべき場所にいけば、同姓同名率なんて簡単に導き出せるんだろうねっていうか、本当に導き出せるんだろうか。
面倒くさいが先を続けよう。この10万人に対しては、生年月日と姓名というフィルターでは、レコードの固有性が証明できないことになるので、次のフィルター、つまり電話番号や住所で同一性を見つけなければならないことになる。
#姓名というのも曲者で、特に女性の場合、旧姓と新姓のひもづけが正しくなされていないと、別人格として年金記録が照合される危険性があり、実際既に指摘されているわけであるが、これも話を単純化させるためにひとまずおく。
当然移転していたり、電話番号が複数あったり、という事情が出てくるので、この10万人に対して同一人物であるか、異なる人物であるかを判断する手間はここで急に煩雑になってくる。ともあれ、同一人物を他人と判断したり、その逆を行う危険性の最大値が、このモデルでは10万人あるということだ。これはこのままにしよう。
さらに、これは姓名の読みが正しくなされていて、入力の際のミスが皆無であるということを前提としている。先ごろ行われた社保庁のサンプリング調査では、3090件に対して入力ミスが5件、誤入力が20数件あったという。併せて25件がミスとして、出現率は約1%弱。先の10万人に重ならないように、この誤入力が、レコードの同一性の確認に何らかの影響を与えるとすれば、1億X1%=100万人。お、急に大きな数字が出てきた。しかし、誤入力が必ず年金の受給記録に影響を与えるとは言い難いので・・・・・。うーん。この100万人をそのまま危険数値とするのは違うだろうな・・・。だが面倒くさいので、そのままさっきの同姓同名リスクと単純に足してしまうと、110万人。
ここまで考えてきても、現在問題となっている5000万件といわれるデータ不備の現状に迫ることはなかなかできない。
そうか、この110万人からの「危険予備軍」を長年放置し続けたと考えるとどうだろうか。仮に30年間こうした現状が繰り返されてきたとする。1年間に生まれてくる子どもの数は1970年代前半には、およそ200万人だったのが、最近では110万人程度に減少しているということなので、間をとって(乱暴だ!)毎年150万人が生まれ、そのうちのえーと(疲れてきた)1%がミス入力の予備軍、0.1%が同姓同名の予備軍として1万6000人の「新危険データ」これが30年間続いて・・でも亡くなっていく方もいるなあ・・まいいや。ここでも乱暴に単純に足していく。(いいのか?いいことにしよう。)
それでも48万人。先の数字に足してしまっても158万人。
そうだ、考えてみれば5000万件のデータは5000万人のものではなく重複があるのだろう。転職を繰り返すたびに、1人につき新たな不備データが生まれる可能性もあったわけだから、そうだ、1人につき5件程度の不良データが「量産」されたことにしよう。すると158万人X5で790万件。うーん。だいぶ大きくすることができたけれど、これでも5000万件には程遠い。
引っ越しさせるか。そうだ。転職だけではなく、移転のたんびにわかんなくなっちゃったことにしよう。(いったい何をやっているんだか)これらの「危険予備軍」が平均6回引っ越して住所が変わり、それがすべて名寄せできない不備データになってしまえばいいんだ(いいんだって何よ)。これで大幅に稼げるぞ。790万件X6=4740万件!!
やった!これで5000万件の不備データ数にかなり近づけた!めでたい(か?)
で、何だっけ、これを1年間で再調査して解決するんだっけ?えーと1日に・・・
(疲れたので以下略)
※いやあ、これは「はてな」の方でやればよかったかな・・・
« 更新 | Main | 水の呪縛-----渋谷シエスパの爆発事故 »
Comments
The comments to this entry are closed.
TrackBack
Listed below are links to weblogs that reference 年金不備データ5000万件はどうやって生まれたか。怪しい計算でこじつける。:
» 個人 年金の気になる話 [保険と年金の気になる話]
保険と年金の気になる話を紹介します。年金個人情報提供サービスこちらをクリックすると行けます申し込んでから3週間ぐらいでIDが届きそれから閲覧ということらしいです随分待たされるな〜〜と思う方も居ると思いますが社会... [Read More]
隊長!
100,000,000÷29200=3425です。
ちなみに24人いると、同じ誕生日な二人が一組できる確率は50%を超えます。同性同名はさすがに分かりません。
# このコメント消しちゃってください。
Posted by: yetanother | June 17, 2007 05:41 PM
げ。電卓使っててなんで計算まちがうの、私。ということで直させていただきました。きっとyetanotherさんがどこかに突っ込んでくれると思ってた。w
で、
>ちなみに24人いると、同じ誕生日な二人が一組できる確率は50%を超えます
これは同じ「誕生月」じゃないの?
Posted by: BigBang | June 17, 2007 06:23 PM
これは誘い受けかと思い、つい。
24人いて、誕生月が一致する二人が一組も見つからなかったら、地球人じゃないのが紛れ込んでいます。気をつけて下さい。
Posted by: yetanother | June 17, 2007 07:07 PM
え。え。っていうかそりゃそうか。100%ですね。
じゃあ
>ちなみに24人いると、同じ誕生日な二人が一組できる確率は50%を超えます
↑
これは?
24人の中で同じ誕生日である2人がいる確率は
(1)24人すべての誕生日の組み合わせ
365P24(365日から24日を選ぶ順列)
(2)この中で2人が同じ誕生日である組み合わせ
365X24C2(どの日かXどの2人か)
でいいのかな?えーと・・(2)/(1)だとすれば・・とても50%を越えないのでは?違います?
Posted by: BigBang | June 17, 2007 10:11 PM
えーと、全員が一致しない確率を考えて下さるとよろしいかと。
ちなみに元ネタは「渇きの海」(アーサーCクラーク)です。
Posted by: yetanother | June 18, 2007 12:38 AM
つまり本当のところはどうなっているか分からないということですね?
Posted by: kubokawa | June 18, 2007 10:26 AM
うーん、何の話をしているのやら・・になってきました。w
ちなみに、コメント欄でやっているのは「生年」は考慮していない議論ですね。月日だけ。
Posted by: BigBang | June 18, 2007 01:20 PM
>つまり本当のところはどうなっているか分からないということですね?
そうとも言います。w
Posted by: BigBang | June 18, 2007 01:21 PM
yetanotherさん
>>ちなみに24人いると、同じ誕生日な二人が一組できる確率は50%を超えます
BigBangさん
>これは同じ「誕生月」じゃないの?
誕生月の場合は、5人目で5割を超えます。簡単な計算です。
因みにyetanotherさん、小姑的に言うと「23」人では。
閑話休題。
このエントリーの本題、年金データに関しては、電子化済みデータ約3億件のうち、「名寄せ」出来ていないのが約5千万件、と理解しています。つまり、ある一まとまりの記録の6分の1に不備があるということです。
「同一誕生日」「同姓同名」のように、「データ側に、不備であることの何らかの理由がある」わけではなく、もっと一般的な原因であろうと思われます。システム上の欠陥とか、極端な職務上の怠慢であるとか。
もっと言えば、「同一誕生日」「同姓同名」のような問題は、このようなデータ(年金記録に限らず、顧客管理簿だろうが個人の住所録だろうが)を扱う場合はつきものの問題なので、システム設計の初期段階で対策が考慮されているでしょう。
(その点は完璧に出来ているはず、という意味ではなく、部外者がこのタイミングで理由を考え始めるとき、その種の問題が主原因である可能性は非常に小さいという意味です。)
Posted by: 深海魚 | July 02, 2007 02:31 AM