しばらく山とランは遠のいています

仕事、そしてコロナの関係でしばらく山やランからは遠ざかっています。来年の春から復帰できるようそろそろ運動再開していきたいと思います。ちなみに今、BIツールのPower BIが半分趣味になって、完全な運動不足になっています。20201020

2014年3月22日土曜日

旧ブログからBloggerへの引越、ほぼ完了です。8年分、たいへんでした。

2006年に始めて今年2014年1月まで書き続けてきたわたしのブログ8年分のデータを引越しました。今回は、プロバイダー「ぷらら」の会員向けブログサービスBroachが突然今年の6月で廃止になるということでこういう事態になってしまいましたが、今後もこういったサービスの廃止はあると思いますので、しっかりいろいろ試しながら、その結果を整理してみました。

■旧ブログ ぷららのブログBroach 
  http://pub.ne.jp/asakaki/
 ・8年分のデータ(約2500記事)
  MT形式テキストデータ6.5MB
  画像データ約5200枚

このデータをBloggerに引越しするのが最終目的。ただ、BloggerはMT形式に対応していないのでデータ引越は敷居が高く、安全のため、いくつかのフリーのブログサービスサイトへ旧データをコンバートしてみました。今回他のブログサービスをいろいろ触りましたがコンバートがたいへんでもやっぱりBloggerが一番便利ですね。

データの引越(コンバート)作業は、旧ブログから得られるデータ形式が、MT形式なのでこのデータをどのように変換していくかがポイントとなります。MT形式のファイルはMovableTypeと呼ばれるブログの標準的なデータ交換フォーマットとなります。このデータには画像は含まれていなく、画像ファイルは旧ブログのURLリンクなので、このリンクを新しい画像の保管場所(新しいURL)に如何に簡単に変換できるかが、引越の最大の難関ポイントとなります。


1.MT形式データのインポート機能を持っているブログサイトへの引越
●gooブログ
 http://blog.goo.ne.jp/sakakimf
ぷらら推奨のgooブログは、Broachからエキスポートしたファイルは自動的にBroachから画像を取込み、URLも自動的に書き換えました。しかし、リンク先が特定のサイトに対しては許容していなく、データの読み込みが拒否されました。5つの記事が拒否されたので、これは1時間ほどかけて手作業で移動しました。ブログサイトとしての機能はもう一つなので、このサイトは旧データの保管場所として当面使う予定。

●Livedoorブログ
 http://asakaki.blog.jp/
インポート機能が充実しているLivedoorのブログは、データ形式をMovableTypeと指定し、旧ブログのURLを入力して、MT形式ファイルで読み込むと画像をそのサイトから自動的に読み込み格納してリンク情報も自動的に書き換えます。旧データはほぼ読み込めました。ただし、このサービスは有償でないとエキスポートが出来ないことが判明。このサイトも旧データの保管場所として当面使う予定。

その他のMT形式のインポート機能がついているブログサイトについて以下のサイトに実際にインポートしてみました。画像の読み込みは予想どおり出来ず、旧ブログBroachの画像をリンクして表示しています。Broachが完全閉鎖するとこの画像は表示されなくなりますので以下のサイトはBROACHが閉鎖するまでは残します。
○FC2ブログ  http://sakakimf.blog.fc2.com/
○Yahooブログ http://blogs.yahoo.co.jp/runner_sakaki
○amebaブログ 特定のブログからしかインポートできないことが判明


2.Google Bloggerへの引越
肝心のGoogleのBloggerへの引越はやっかいでした。BloggerはMT形式に対応していません。フィードに使われるATOM形式でインポート・エクスポートします。しかも画像の自動取込機能はありません。したがってインポートさせるまでいくつかの作業がデータコンバートとして必要になります。この方法をインターネットで探してテストデータで試しながら行いましたので、相当手間と時間がかかります。
・画像の移動(PICASAへの移動)
・エキスポートしたMT形式のデータの画像URLの変換
・コンバートデータのデータ交換(MT形式からATOMへの変換)
 コードをUTF-8に変換、日時をGMTに変換、コンバートのゴミの削除なども行う

1) 画像の移動(PICASAへの移動)
旧からエキスポートした画像ファイル一式(約5200枚)をBloggerの画像ファイルが保管されるPicasaWebサイトにアルバム登録します。ここで問題は、1アルバム2000ファイルまで保存できますが、1000枚越えると後ほど行う処理で問題が発生したので、6つのアルバムに分けて登録します。アルバムはURLによるアクセスを可能とする公開設定を行います。

2) 画像の新しいリンク先(URL)を取得
PicasaWebのアルバムを開くとRSSを取得できますが、これを利用します。ただし、いろいろ試してみるとどうもこのRSSは1000枚分までしか出力できないようです。そのため、上記で実施した1アルバムのファイル数を1000枚以下にする必要があります。

3) テキストエディタでの各種データ加工
(1)タグとカテゴリ; これは実際には後でわかってやり直したのですが、MT形式のエキスポートデータには、記事の分類に"PRIMARY CATEGORY"と"TAGS"の二つがあって、Bloggerにはタグ(TAGS)しかないため、"PRIMARY CATEGORY"は無視してコンバートされることがわかりました。わたしは旧ブログでタグ付けをあまりしていなかったので元々のTAGSは捨てて"PRIMARY CATEGORY" を"TAGS"として読み込まれるようにテキストエディタで変換処理しました。同時に、この時点でタグの整理を一括変換等で行った方がBloggerでするよりかなり楽です。
(2)記号; 旧ブログの出力のテキスト部分に「””」がついていたのですが、これを7)の変換ツールがご丁寧に"と変換しているのでこれらをすべて削除する必要があります。
(3)画像ファイル名; 旧ブログの出力で、もともとの画像ファイルのサムネイルファイルを使っているケースがあり、そのファイル名は、元画像のファイル名の先頭部分に"thumb"という名前を加えてURLが作られていました。エキスポートした画像ファイルは元ファイルしかないため、テキストエディタで"thumb"をカットして対処しました。
ブログの引越ではサイトによってこういったデータ加工がいろいろ必要なようです。これらは何度もテストデータをコンバートしてわかったことです。ちなみに、エディタはサクラエディタを使いました。

4) 旧ブログからエキスポートしたMT形式データを分割
以下で利用する、フリーツールの中にデータのサイズの制限が1MBとなっているものがあり、テキストエディタを使ってエキスポートデータを複数に分割します。わたしの場合は6.5MBあったので7分割しました。

5) ブログ記事の発行日時をGMTに変換
Bloggerのインポートデータの日時はGMT(グリニッジ標準時)でなければなりません。この変換をクリボウさん作の以下のツールで行います。この変換を省略するとBloggerで正しい日時が表示されません(場合によってインポートした日が記事の投稿日になってしまいます)。
 日時形式変換ツール;http://programming.kuribo.info/2012/05/blogger-movabletype.html

6) 画像のリンク先(URL)の変換処理
旧ブログのMT形式のエキスポートデータの画像リンクURLを、画像ファイル名をキーにして検索して2)で取得した新しいURLに変換します。PBロッキーさんが作成したツールがご本人のブログ (http://pbrocky.blogspot.jp/2011/08/livedoorblogexodus.html) で紹介されていいます。このツールを使って2)で取得した全画像の新しいURLを含んだRSSと4)の旧ブログのエキスポートデータを読み込ませて変換実行し保存します。このツールは変換できなかった画像のURLを一覧表示してくれるので助かります。
 画像URL変換ツール;http://casio-pb-100.googlecode.com/svn/etc/lbExodus/base.htm

7) MT形式からATOM形式への変換
movabletype2bloggerというBloogerへのデータコンバートを行うときに必ず出てくるツールを使います。このツールはデータサイズが1MBを越えるとエラーを出しますので注意が必要です。
 MT-ATOM形式変換ツール;http://movabletype2blogger.appspot.com/

8) Bloggerにインポート
ここまでデータを変換処理をして、やっとBloggerにインポート可能となります。結果は公開ページで確認して、コンバートに問題のある場合は、地道に一つ一つ手で修正していくことになります。
わたしのコンバート結果は、本ブログhttp://asakaki.blogspot.jp/の主に2013年度末までの記事がコンバートしたデータとなります。表が崩れたりしてうまく変換できていないところはぼちぼち修正していきます。

とにかく、たいへんでした。

0 件のコメント: