本データ集は,Norman L. Allinger先生や大沢映二先生 (元北大・元豊橋技科大) 等による分子力学ソフトMM2やMMP2をもとに,分子構造を最適化したデータ集です。これらのソフトで計算できない分子については,今後分子軌道計算法により補充していくつもりです。
これらのデータは,個人 (貧困な研究者,学習者) が主に有機化合物を対象にして分子構造を表示したり,分子軌道法等により計算して,より深い分子構造の知識を得る為の一助となること期待して提供するデータです 。当然ながら,本格的なデータベースと比べ,不備・不正確な点が多々あると思いますが,できれば皆さんでより良い物にしていきたいと考えています。
ここでは,データの登録方法やデータの書式等について簡単に説明し,索引のための一覧表を順次作成していきたいと思います。
本データ集では,化合物名や構造式を確認するため,
益子洋一郎・畑一夫・竹西忠男,「有機化合物構造式インデックス」,丸善 (1973)
を参考にしました。この本の分類にしたがって,個々の化合物の登録ファイル名を決めていますので,化合物の命名や構造式を調べるときは,この本を参照して下さい。
<化合物の登録ファイル名>
化合物の分類は大きく分けて,次の5つです。
<ディレクトリ>
\a\ 脂肪族化合物 Aliphatic compounds
\b\ 脂環式化合物 Alicyclic compounds
\c\ 芳香族化合物 Aromatic compounds
\d\ 複素環式化合物 Heterocyclic compounds
\e\ 炭水化物および関連化合物 Carbohydrates and related compounds
さらに,\a\は41個に分けてあります。例えば,はじめの\a\について
\a\a1\ 炭化水素 Hydrocarbon
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
\a\a41\ セミカルバジド,チオセミカルバジド,その他
Semicarbazide,
Thiosemicarbazide, etc.
この\a\a1\は,さらに次のように分類されます。
\a\a1\a1-1\ 飽和炭化水素 Saturated hydrocarbons
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
\a\a1\a1-2\ 不飽和炭化水素 Unsaturated hydrocarbons
そして,\a\a1\a1-2\の不飽和炭化水素は,
\a\a1\a1-2-1\ モノオレフィン Monoolefins
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
\a\a1\a1-2-3\ アセチレン列炭化水素
Acetylenic hydrocarbons
となりますが,これではディレクトリが深くなるので,現在は,最後のディレクトリを登録データの分類ディレクトリとしています。その例を示すと,次のようになります。
<分類ディレクトリ>
\a1-1\ 飽和炭化水素
\a1-2-1\ モノオレフィン
\a1-2-2\ ジオレフィンおよびポリオレフィン
\a1-2-3\ アセチレン列炭化水素
さらに,そのディレクトリの中に,該当化合物の登録コード (ファイル名) を割当てるようにしています。いくつか例を示すと,
<分類ディレクトリ> <登録コード (ファイル名) > <化合物名>
\a1-1\ a0001.opt メタン Methane
a0002 .opt エタン Ethane
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
\a1-2-1\ a0001.opt エチレン Ethylene
a0002.opt プロパン Propane
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
のようになります。
拡張子 (.opt) は, 構造最適化された分子座標データを意味します。
(改定者注 本データ集では, すべてPDB形式に変換され, 拡張子は .pdb となっています)
3.分子座標データの書式について
PDBフォーマットの書式については,
Protein Data Bank Contents Guide
PDBフォーマットの書式 (上の日本語訳)
などのサイトを参照してください。
(改定者注 以下はMODRAST-MOLDA形式データに関する注です。参考までに残してあります。)
ファイル名 \a1-2-1\a0001.pdbのエチレンの例をもとにして,MODRAST-MOLDA形式データの書式について説明します。
( 1) "Ethylene
(CH2=CH2) "
( 2) 6
( 3) .66958, 0, 0, 6
( 4) 1.23873, -.94397,0, 1
( 5) 1.23873, .94397,0, 1
( 6) -.66958, 0, 0, 6
( 7) -1.23873,-.94397, 0, 1
( 8) -1.23873, .94397,0, 1
( 9) 5
(10) 1, 4
(11) 1, 2
(12) 1, 3
(13) 4, 5
(14) 4, 6
(1) 行目 化合物名や構造式についてのコメント
(2) 行目 分子中の原子の数
(3) 行目 1番目の原子のx,y,z座標値,原子番号
・・・・・・・ 中 略 ・・・・・・・
(8) 行目 6番目の原子について (3) に同じ
(9) 行目 結合の組の数
(10) 行目 ここから結合の組 (対) が一行あたり一組続く
(改定者注 以下は元々のOPT形式データに関する注です。参考までに残してあります。)
ファイル名 \a1-2-1\a0001.opt のエチレンの例をもとにして,データの内容について説明します。
(1) 6 5 Ethylene(CH2=CH2)
(2) .66958 .00000 .00000 6 2
(3) 1.23873 -.94397 .00000 1 5
(4) 1.23873 .94397 .00000 1 5
(5) -.66958 .00000 .00000 6 2
(6) -1.23873 -.94397 .00000 1 5
(7) -1.23873 .94397 .00000 1 5
(8) 1 4 1 2 1 3 4 5 4 6
(1) 行目 分子中の原子の数,結合の組の数,化合物名や構造式についてのコメント
FORMAT (I5,I5,A60)
(2) 行目 1番目の原子のx,y,z座標値,原子番号,MMP2の原子タイプ
FORMAT (F9.5,F9.5,F9.5,I5,I5)
・・・・・・・ 中 略 ・・・・・・・
(7) 行目 6番目の原子について (2) と同様
(8) 行目 ここから結合の組 (対) が一行あたり8組まで続く,この例では
1-4,1-2,1-3,4-5,4-6 の5組である。
FORMAT (8 (I5,I5) )
注1) 化合物名や構造式についてのコメントについて
これらコメントの文字列の中では,使用ソフトによりカンマ”,”は使えないので”.”で置き換えています。また,三重結合などは,”=-”としています。命名は代表的なものを入れてあります。
注2) MMP2の原子タイプと原子番号について
MM2の原子タイプとの互換性は1から28まではあると思いますが,MM2の実行段階で,パラメータ不足が起きるかも知れません。なお,不対電子 (ローンペア) の場合,原子番号は,0か104を割当てています。
(例: sp3タイプの炭素は,原子番号は6,原子タイプは1,alkaneなどの水素は,原子番号は1,原子タイプは5です。)
注3) 分子中の原子の位置番号 (1番目の炭素,2番目の水素,など) ”について
各分子中の原子の位置番号は,命名の仕方により異なるなど複雑です。本データ集での位置番号は,命名法による番号と対応していないので注意して下さい。位置番号を表示するときや結合角度,結合距離,捩れ角など検討するときは,命名法や目的にあわせて位置番号 (原子の登録順序) を書換える必要があります。特に,複雑な化合物の時は要注意です。
1989/05/22
注4) 直鎖化合物や環状化合物で,比較的大きな化合物の場合,ここで提供する最適化座標は,最もエネルギー的に安定な構造を示している自信はありません。化合物によっては,これを求めるだけで,一つの仕事と考えられ,今後の皆さんの協力が必要と思います。これら座標を使う際には,この点にくれぐれもご注意願います。
注5) これら座標データの索引を一覧すれば,MM2 (MMP2) の適用範囲がおおよそお分かりになると思います。Allinger先生のお陰で,MM2のパラメータが年々増えていますが,化合物の数からすると適用範囲の増加は僅かずつです。ただ,他の方法 (例えば分子軌道法など) によって構造を最適化する場合でも,既に最適化された一連の分子データを連結して目的分子を構築すれば,大幅な計算時間の短縮がはかられ,次のステップへの手助けとなると思っています。
注6) すでに公表したデータの中で,一部MMP2の原子タイプに誤りがあることを見つけていますが,今戻るより先に進み一通り終ってから,化合物の追加を含めて前に戻って適宜,補充訂正を加えようと考えています。
1989/11/06