WIDEトラフィックデータのプライバシ保護対策およびその公開に関するガイド ライン 1999年10月14日 WIDEプロジェクト MAWIワーキンググループ 従来からWIDEではトラフィックデータの収集には個別対応していたが、 生のデータを取り扱っていたためプライバシ保護対策が十分なされて いないのが現状である。 今回、データからプライバシ情報を削除する手順を定め、取り扱いが 容易なデータを作成するガイドラインを作成する。 また、プライバシ情報を削除したWIDEのトラフィックデータに関して は、FTPにより公開することとする。 大雑把にいうと、従来トラフィックデータは毒物扱いで利用には さまざまな規制があったが、データから毒性を除去することによっ て誰でも扱えるようにしようという意図である。 データフォーマット トラフィックデータのフォーマットは詳細な情報を記録し、広く普及 していて、かつ、多くの解析ソフトウエアが利用可能なtcpdumpの binary output (-w option)形式を標準とする。 他のフォーマットを利用する際にも基本的に本ガイドラインが適用さ れる。 1. プライバシ情報の除去 プライバシ情報を除去したデータの意義 プライバシ情報を含んだ生データを取り扱う場合は、常に事故が発生 する危険が伴う。 また、個別対応でトラフィック収集を行なうのは、データを供給する 側される側双方に負荷が大きい。 ここに定める手順はプライバシの保護を実現しつつ、多くの研究利用 に可能なデータセットの定義を目的としている。 (ここに示された以上のデータが要求される場合は従来どおり個別対 応する。) 本手順にしたがったトラフィックデータに関しては自由な研究利用が できるものとする。 プライバシの保護 ユーザプライバシの保護のため、以下の2点に関した処理を行なう。 1. ユーザデータの削除: プロトコルヘッダ以外のデータ(ペイロード)は削除する 2. ユーザIPアドレスの匿名性の確保: アドレスをスクランブル処理する これらの詳細はAppendix参照。 2. WIDEトラフィックデータの公開 データ公開の意義 最新のトラフィックデータが比較的容易に入手できることがこの分野 の研究促進に欠かせない。 また、公開されたデータに基づいた研究は、第3者の検証、再解析が 可能となるので、より深い研究が可能になる。 トラフィックデータは商用ISP(Internet Service Provider)では公開 が難しく、世界的に見ても数少ない実トラフィックを運ぶ実験ネット ワークとしてWIDEが行なう意義がある。 また、IPv6の利用等、次世代インターネット基盤としての役割も大き い。 データの利用 データの利用は研究目的に限定する。研究目的以外の不正使用は禁止 する。 データの利用にあたってはプライバシ保護の問題に注意すること。 対象トラフィック IPv4およびIPv6。 WIDEバックボーン上に数箇所のサンプリングポイントを設定する。 具体的な場所等は示さない。 Appendix A ペイロード削除のルール TCP、UDPのペイロードはユーザのプライベートな情報を含んでいるた め原則として削除する。 ただし、TCP、UDP上にさらにプロトコルヘッダが存在し、かつ、その ヘッダにユーザ情報を含まない場合は、そのヘッダまでは残すことが できる。 プロトコルによってはヘッダにユーザ情報を含むかどうかの判断が難 しいものがあるが、その場合は安全側をとって削除するものとする。 Appendix B アドレススクランブルのルール IPアドレスのスクランブリング IPヘッダに含まれるソース/デスティネーションIPアドレスはスクラ ンブルすることによって個人や組織の匿名性を確保する。 スクランブルには以下の2つのレベルがあり、用途によって使い分け る。 (1) フルスクランブル IPアドレスをハッシュ関数によってスクランブルし、異なる IPアドレスにマップする。 (2) プリフィックスを保存したスクランブリング スクランブル時に同一のアドレスプリフィックスを持つアド レスはスクランブル後も同一プリフィックスを持つように変 換する。 (2)の方式はルーティング情報を保存できる反面、特定のサーバ等の アドレスを糸口に、プリフィックスのマッピングをリバースエンジニ アリングされる危険性がぬぐいきれない。 元データのアドレス匿名性の重要度とデータの用途に応じた使い分け を行なう。 例外アドレス broadcastアドレス、multicastアドレス、privateアドレス等ユーザ の匿名性に関係しないアドレスはスクランブルしなくてもよい。 IPv6の場合は、link-local addressやsite-local addressにはユーザ のMACアドレスが埋め込まれる場合がある。また、solicited-node multicast addressにはglobal addressの下位ビットが使われる。 したがって、これらのアドレスに関してもスクランブルを行なう必要 がある。 上位プロトコルヘッダに埋め込まれるIPアドレス IPヘッダ以外のプロトコルヘッダ(e.g., ICMP, DNS)に含まれるIPア ドレスに関しても同様のスクランブリング方式を適用するか、アドレ スを削除する対応をとる。 MACアドレス データ収集したセグメントに直結するマシンのMACアドレスが含まれ る場合、MACアドレスから機器のベンダーや機種が特定できる可能性 がある。 しかし、一般ユーザの情報を含むことはないので本手順の対象外であ ることやその影響が限られたものであることを考慮して、MACアドレ スはスクランブルしなくてよいものとする。 アドレススクランブルの単位 データセットのどのような単位でアドレスの一貫性を保つかにはいく つかの選択がある。 (1) 同一TCPセッションのアドレスは同一アドレスにマップ されることのみを保証する (2) 同一ファイル内の同一IPアドレスは同一IPアドレスにマッ プされる (3) 複数のファイルにまたがるデータセットにおいて、すべ ての同一IPアドレスは同一IPアドレスにマップされる 長時間の一貫性を保つほうが利用者には便利であるが、その分リバー スエンジニアリングも容易になる。 一般の利用には(2)の方法を推奨する。 IP/TCPオプション IPオプションはIPアドレスを含む場合がある。IPオプションは削除す るか、残す場合は含まれるIPアドレスに同様のスクランブリング方式 を適用するまたは削除(またはNOPオプションでの置き換え)すること。 TCPオプションにはプライバシ情報は含まれない。また、TCPの挙動解 析には必要な情報なので残すことを推奨する。 チェックサム・フィールド IPおよびTCP/UDP/ICMPヘッダのチェックサムフィールドはIPアドレス を含んだチェックサムが書かれているため、アドレスのリバースエン ジニアリングの切口となり得る。 したがって、以下のいずれかの対応を行なう。 ・スクランブル後のアドレスの値を反映するよう修正する ・チェックサムはクリアする タイムスタンプ データの取得時間情報は保存することを原則とする。 ファイルサイズ データ量が膨大な場合は、一般的に取り扱いが容易な100MB程度のファ イルに分割することを推奨する。 非標準手続き ルーティングプロトコルやDNSの解析には生のアドレス情報が必要に なる場合がある。 このような場合は個別対応するが、その際も対象プロトコルのパケッ トのみを含むデータセットを抜き出す等、プライバシ保護対策が必要 である。 変換ツール 標準の変換ツールとしてwide-tcpdprivを用意する。 wide-tcpdprivは生のtcpdump binary fileを入力すると、プライバシ 情報を削除したbinary fileを生成する。 wide-tcpdprivはGreg Minshallのtcpdprivを拡張し、デフォルトの設 定で上記要件を満たすように改造したものである。 以下のURLから入手できる。 ftp://ftp.csl.sony.co.jp/pub/kjc/wide-tcpdpriv.tar.gz 使用方法 % tcpdpriv [-w outputfile] [-r inputfile] or % tcpdpriv < inputfile > outputfile Appendix C Traffic Data Description Format 収集されたデータセットには以下のフォームを添付することとする Traffic Data Description Format Description: (A general description of the traffic trace (e.g., "one hour of all TCP traffic between the University of Southern California and the rest of the world"; "HTTP server logs for a departmental server").) Data Format: [ ] tcpdump binary [ ] tcpdump ascii [ ] other ( ) Measurement Information: Start Date and Time: Duration: hours minutes Contact information: e-mail: Other measurement details: (if any) Protocol: [ ] IPv4 [ ] IPv6 [ ] other ( ) Privacy: [ ] wide-tcpdprive default setting [ ] other payload deletion: [ ] TCP/UDP payload deleted List of protocols whose headers are not deleted [ ] address scrambling method: [ ] no scrambling [ ] full scrambling [ ] prefix preserved [ ] other ( ) address mapping consistency: [ ] session only [ ] (subdivided) file [ ] entire data set [ ] other ( ) Restrictions: (Whether the trace may be redistributed without permission, who to contact for permission. All traces in the archive are unrestricted as to what use may be made of them (for example, there is no requirement that simulations made using the traces be published in the open literature). ) [ ] redistributable [ ] other (described below) Distribution: File Information compressed size: Bytes uncompressed size: Bytes compression method: [ ] gzip [ ] other ( ) if data set is divided into multiple files: number of files: average file size: URL: Acknowledgments: (Who captured the trace, how the trace should be acknowledged in publications, who to contact with questions regarding the trace.) Publications: (Publications available that have already studied this trace, if any.) Related: (Available related software and traces, if any.) 以上。