CSVからAmazon RDS for PostgreSQLにデータをロード

プログラミング

今回、Amazon RDS PostgreSQLに300万行程のCSVを取り込んだので、備忘録として作業を残しておきます。なお、データベースとの接続設定は完了している前提です。まだ設定していない場合はこちらをご覧ください。

大きく分けてpandasを使用した方法とAmazon S3からロードする二つの方法がありますが、今回は前者でやりました。

手順

pgAdmin4でデータベース自体を作っておく

データベース自体は何で作っても良いですが、pgAdmin4からやると楽でしょう。今回はaccidents_testという名前にしました。

df.to_sqlでロードする

pd.read_csvでデータを取り込んだ後、SQLightであれば直接データベースにロード出来ますが、PostgreSQLの場合はengineというのを噛ます必要があります。

データ数が多かったので、10分程度待ちました。

作成したaccidents_testというデータベースに、accidents_sampleというテーブルが作成されました。データ数も予想通りです。

S3からのデータロード

300万行程度のCSV一つであれば上記の方法でもストレスなく取り込めましたが、それよりも遥かに大きいデータを取り込みたい場合はしんどいかもしれません。その場合はこちらの記事を参考に試してみるのが良いでしょう。

在米6年目あたりのエンジニア&サーファー。主にサーフィンとプログラミング情報の発信をします。

ハンティントンビーチによくいましたがシアトルに引っ越してポイント開拓中。

socaltkをフォローする
プログラミング
socaltkをフォローする
Socal Tech and Surf Blog

コメント

タイトルとURLをコピーしました