basyura's blog

あしたになったらほんきだす。

sqlite3 の CR

twitter のユーザ情報をクロールして sqlite3 に突っ込んでみてるんだけど性能がちょっと。

84000件のレコード を
find_all → 16 [s]
create   → 526.722367 [s]
transaction 付きで create → 432 [s]

こんな使い方するのが間違いか・・・。一時間に一回、データを全部検索・編集して表示用のテーブルを作り直したいんだけど、このままだとテーブルを作り直した直後にまた作り直しになってしまう。
クロールしたついでにテーブルをチマチマ編集していくのもありだけど、それだとデータの使われ方が固定化されちゃうし、データの編集方法を変えたい場合に一々テーブルレイアウト変えたりしないといけなくなる。
MapReduce 的な事をやりたいなぁ、分散処理して結果を結合するやつを。なにか良い方法がないものか。