青空文庫をEPWING化した青空WINGを使って、様々な日本語の用例をを探し出すことが出来ます。EBWinなどの検索ソフトで結果を眺めるのもおもしろいのですが、紙に印刷して用例カードにすると、よりいっそう用例の比較や分類がしやすくなります。
このキットは、EBWinの全文検索結果を全自動でコピペ(コピー&ペースト)してHTMLファイルを作るものです。出来たHTMLファイルをWordで縦書きにしたりして縮小印刷(1枚に4ページとか)し、ページごとに切断すれば用例カードになります。HTMLファイルは用例ごとに改ページされるようになっています。
[2015/07/23追記] 田野村忠温先生による「日本語用例検索」では、Webブラウザから青空文庫の全文検索を高速に行えます。
[2017/03/04追記] 上智大学の豊島正之先生による、青空文庫の検索サイトも非常に便利です。さらに、なんと大槻文彦『言海』とも連携して参照できるようになっています。
「隈なく」の全用例297件を収録したものです。
動作確認環境:Windows 7 (32bit)、Intel i5-2500 (3.3GHz)、2GBメモリ。EBWin 4.2.4.0、UWSC 5.1.1.0。
普通にEBWinを起動し、青空WINGを全文検索出来る状態にします。
重要: 自動処理の都合上、起動しているEBWinは一つだけにします。多重起動している場合は、一つを残して終了します。
UWSC.exe を起動します。5つのボタンがある小さなウィンドウが開きます。
左端のボタンを押し、作成キットの youreicopy.uws を読み込みます。読み込めたら、真ん中の再生ボタンが色つきに変わります。
普通に全文検索をします。
検索結果リストの先頭をクリックして、最初の用例の段落を表示します。
用例が大量にある場合、コピペを始めたい用例を表示します。それ以降の用例が順にコピペされます。
青空WINGには作者情報や書誌情報も入っているため、その中でも用例が見つかることもあります。その場合は、必ずコピペを開始する作品テキストの用例を一つ表示させてください。
ともかく、用例コピペ開始前に作品のテキストが表示されている状態で、検索結果リストをクリックした直後の状態でなければなりません。作品テキスト側やメニューにどこかを触った後の状態では、全文コピペが正しく走りません。
UWSCの真ん中にある「再生(P)」ボタンを押します。最初に書誌情報を読み込み、それから全用例コピペが始まります。数百件のコピペに数分かかることがあります。
重要: コピペ中は、(途中停止するとき以外)マウスやキーボードに触らないでください。触ると意図しない操作になったり、コピペが出来ず、途中停止してしまうことがあります。
用例が大量にある場合、UWSCの「STOP」ボタンを押すとコピペを止められます。再開は出来ません。途中停止した場合、HTMLファイルの最後の "</body></html>" が欠落します(が、普通問題ありません)。
youreicopy.uwsのあるフォルダに、「検索した語.html」のファイルが出来ます。これが用例カードのファイルです。既にあれば上書きされます。
コピペが途中で止まってしまう場合、もう一度最初から試すと完走出来ることがあります。それでもだめな場合、コピペ処理をゆっくり進めるように調節します(youreicopy.uwsのwait_msecを増やします)。
HTMLファイルをブラウザで印刷すると、用例ごとに改ページが入ります。主要なブラウザでは印刷時の改ページ指定をサポートしているようです。
Word 2010/2013では、用例のHTMLファイルを読み込み、「ページレイアウト」の「文字列の方向」を「縦書き」、「印刷の向き」を「縦」、「余白」を「狭い」(さらに手動で調節)すると、縦書きの用例カードになります。また「ページ罫線」を「囲む」にすると各ページを囲む罫線を入れられます(縮小印刷の際、プリンタのオプションで各ページの仕切り線を入れるのでも良いでしょう)。その他、お好みで見栄えを調節した後、「ファイル→名前を付けて保存」で「ファイルの種類」を「Word文書」に変えてから保存します。
下のWord 2010の例では、余白を四辺とも手動で1cmにしています。タイトル1ページ+用例297件で、298ページになって欲しいところですが、稀にページからはみ出してしまうこともあり(書誌情報が長かったりする場合)、302ページになっています。各ページの最後には用例カードの番号があるので、はみ出した端切れページがどれのものかは見れば分かるようになっています。ページ数が増えすぎている場合、余白を減らすか、後述の方法でHTMLのフォントサイズを小さくしてからWordで読み込み直します。
Word 2013でも同じような表示ができます。下の例では2段組みにしてみました。「ハイフネーション」右下の矢印をクリックすると「ページ設定」が開き、「その他」タブの「罫線」でページ罫線の設定ができます。
Wordで編集した後、PDFとして保存すると、Adobe Readerで閲覧・印刷できます。Adobe Readerの印刷オプションでは縮小印刷のページ割り付けや「ページ境界線を印刷」オプションでページ区切りの線を入れられます。
LibreOfficeという無料のオフィスソフトでも、日本語縦書き編集が出来ます。
LibreOffice WriterでHTMLファイルを読み込み、「書式→ページ」で「印刷の向き」を「縦」、「文字の方向」を「右から左へ(縦書き)」にしたり、余白の調整が出来ます。「書式→段落→インデントと行間隔」で行の間隔も調節出来ます。印刷の際は、「印刷→ページレイアウト」で紙1枚当たりのページ数やページの外枠線のありなしを指定出来ます。編集後は、「ファイル→名前を付けて保存」で「ファイルの種類」を「ODF文書ドキュメント」に変更してから保存します。
自動作成されたHTMLファイルの先頭には、用例や書誌情報のフォントサイズ指定があります。秀丸などのエディタでHTMLファイルを開き、フォント指定を直せば、見栄えを変えられます。
<html><head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <title>隈なく</title> <style type="text/css"> h2 {font-size: 22pt; page-break-before: always;} body {font-size: 22pt; font-family:'MS P明朝';} p.info {font-size: 18pt;} small {font-size: 15pt;} </style></head> <body> <h1>「隈なく」 青空文庫 用例カード</h1> ・・・ |
これはHTMLで標準的なCSSというスタイル指定です。font-size, font-familyの他に、font-style, font-weightなども指定出来ます。
UWSCで処理するyoureicopy.uwsの冒頭には、フォントの指定はもちろん、抜き出す用例の文字数などが書かれています。秀丸などのエディタでyoureicopy.uwsを開き、諸設定を変更することで、コピペで作成されるHTMLの見栄えを変えられます。
HTMLでは、半角空白をいくつ並べても一つ分にしかなりません。空白を増やす場合は、全角空白を使うか を複数並べます。
next_step の値を増やすと、間引きコピペが出来ます。全文検索で見つかった用例が多すぎる場合に使えます。
修正後、再度UWSCでコピペを行うと、新しい設定に従ったHTMLファイルが出来ます。
////////////////////////////////////////////////////////////////////// // 用例の抜き出し文字数(半角・全角とも1文字と数える) public copy_lenght = 350 // 改行表示する最大段落数(これを超える段落数なら改行しない) public max_para_num = 3 // 改行しない場合に、各段落先頭に挿入するマーク文字 public para_mark = " ▽" // 検索語の前後に挿入するマーク文字(<b>...</b>で太字) public key_mark_pre = "▼<b>" public key_mark_post = "</b>▲" // 表示フォント設定 // font_default : フォント名 // font_size_title : 1行目の ”「・・・」#X xxxxx.xx”のフォントサイズ // font_size_info : 書誌情報のフォントサイズ // font_size_yourei : 抜き出した用例のフォントサイズ // font_size_kana : 書誌情報の かな などのフォントサイズ public font_default = "MS P明朝" public font_size_title = "22pt" public font_size_info = "18pt" public font_size_yourei = "22pt" public font_size_kana = "15pt" // ある用例のいくつ後の用例をコピペするか // ヒットした用例が大量にありすぎる場合、この値を増やして適当に間引きする // 1 とすると、一つずつ全部コピペする(デフォルト) // 2 とすると、一つコピペし、その次は一つ飛ばして、二つ目をコピペの繰り返し // 10 とすると、一つコピペし、そのあと九つ飛ばして、十番目をコピペの繰り返し public next_step = 1 // コピペ処理の自動キー操作の待ち時間 [ミリ秒] // 速すぎて処理が途中で止まる場合は 30 などに増やしてみる public wait_msec = 15 ・・・ |
コピペ中、マウスやキーボードに触っていないのに途中で止まってしまう場合、コピペがうまく出来ていません。これは全自動のコピペ処理が速すぎる場合に起こります。たまたまうまく行かなかったときは、もう一度最初からコピペすると完走出来ることもあります。
youreicopy.uws の wait_msec = 15 とあるところを wait_msec = 30 などとすると、ゆっくり進むようになります。逆にパソコンの性能に余裕があるようでしたら、もっと少ない値にして処理を速めることも出来ます。
このプロジェクト用のなんでも掲示板へどうぞ。
(C) 大久保克彦, 2015-2022