データ共有の並列処理
前の章では、メッセージの受け渡しによって情報を共有するスレッドについて説明した。その章で述べたように、メッセージの受け渡しは、安全な同時実行の方法だ。
別の方法としては、複数のスレッドが同じデータを読み書きする方法がある。例えば、所有者スレッドがbool
変数のアドレスでワーカを起動し、ワーカはその変数の現在の値を読み取って、終了するかどうかを決定することができる。別の例としては、所有者が同じ変数のアドレスで複数のワーカを起動し、その変数が複数のワーカによって変更される場合がある。
データ共有が安全でない理由のひとつは、レース条件である。レース条件は、複数のスレッドが、制御されない順序で同じ変更可能なデータにアクセスした場合に発生する。オペレーティングシステムは、個々のスレッドを不特定の方法で一時停止および起動するため、レース条件のあるプログラムの動作は予測できない。
この章の例は単純に見えるかもしれない。しかし、ここで取り上げている問題は、より大規模な実際のプログラムでも発生する。また、これらの例ではstd.concurrency
モジュールを使用しているが、この章で説明する概念はcore.thread
モジュールにも適用される。
共有は自動的ではない
他のほとんどのプログラミング言語とは異なり、Dではデータは自動的に共有されない。データはデフォルトでスレッドローカルである。モジュールレベルの変数は、すべてのスレッドからアクセスできる印象があるが、実際には各スレッドは独自のコピーを取得する。
worker()
内で変更されたvariable
は、main()
によって認識されるvariable
とは別のものになる。この事実は、変数の値とアドレスの両方を出力することで確認できる。
アクション | 値 | アドレス |
---|---|---|
ワーカーが終了する前 | 42 | 7F26C6711670 |
ワーカーが終了した後 | 0 | 7F26C68127D0 |
各スレッドは独自のデータコピーを取得するため、spawn()
ではスレッドローカル変数への参照を渡すことはできない。例えば、bool
変数のアドレスを別のスレッドに渡そうとする次のプログラムは、コンパイルできない。
std.concurrency
モジュール内のstatic assert
は、別のスレッドから変更可能なデータへのアクセスを禁止する。
モジュール内のisDone
は、スレッド間で変更可能なデータへのアクセスを禁止する。
この規則の例外は、__gshared
として定義された変数だ:
このような変数はプログラム全体で1つのコピーしか存在せず、すべてのスレッドがその変数を共有できる。__gshared
は、CやC++のような言語のライブラリと相互作用する場合に必要である。これらの言語では、データ共有がデフォルトで自動化されているためだ。
shared
スレッド間で変更可能なデータを共有するには
共有する必要がある変更可能な変数は、shared
キーワードで定義する必要がある。
注釈:スレッドにシグナルを送るには、メッセージパッシングを使用することをお勧めする。
一方、immutable
変数は変更できないため、直接共有しても問題はない。そのため、immutable
はshared
を意味する:
出力:
データ | 42 |
---|
i
の寿命はmain()
のスコープによって定義されるため、main()
がワーカスレッドよりも先に終了しないことが重要だ。上記のcore.thread.thread_joinAll
の呼び出しは、スレッドがすべての子スレッドが終了するのを待つためだ。
レース条件の例
変更可能なデータがスレッド間で共有されている場合、プログラムの正確性には特別な注意が必要である。
競合状態の例を見るために、同じ変更可能変数を共有する複数のスレッドを考えてみよう。次のプログラムでは、スレッドは2つの変数としてアドレスを受け取り、その値を何度も交換している。
上記のプログラムはコンパイルは成功するが、ほとんどのケースで正しく動作しない。10個のスレッドが起動し、すべて同じ2つの変数i
とj
にアクセスする。レース条件により、他のスレッドの操作を意図せず妨害してしまう。
また、交換の総回数は 10,000回×10回であることも注目。この回数は偶数であるため、変数の値は、最終的には初期値である1と2になることが予想される。
前: 1と2
後 : 1と2 ← 期待される結果
この結果が生じる可能性はあるが、実際の結果はほとんどの場合、以下のいずれかになる:
前: 1と2
後 : 1と1 ← 誤った結果
前: 1と2
後 : 2と2 ← 誤った結果
"2と1"という結果になる可能性は極めて低いものの、あり得ないわけではない。
プログラムが正しく動作しない理由は、レース状態にある2つのスレッド間の以下のシナリオで説明できる。オペレーティングシステムは、不確定なタイミングでスレッドを一時停止および再開するため、2つのスレッドの操作は、以下の順序で実行される可能性もある。
i
が1、j
が2の状態を考えてみよう。2つのスレッドは同じswapper()
関数を実行するが、ローカル変数temp
はスレッドごとに別であり、他のスレッドのtemp
変数とは無関係であることを覚えておいて。これらの別々の変数を識別するために、以下ではtempA
およびtempB
と名前を変更している。
以下のチャートは、for
ループ内の3行のコードが、各スレッドによって時間経過とともに実行される方法を、上から下へ、操作1が最初の操作、操作6が最後の操作として示している。各ステップでi
またはj
が変更されたかどうかは、その変数をハイライト表示して示している:
操作 スレッドA スレッドB ──────────────────────────────────────────────────────────────────────────── 1: int temp = *second; (tempA==2) 2: *second = *first; (i==1, j==1) (この時点でAが一時停止され、Bが開始されていると仮定) 3: int temp = *second; (tempB==1) 4: *second = *first; (i==1, j==1) (この時点でBが一時停止し、Aが再開されていると仮定) 5: *first = temp; (i==2, j==1) (この時点でAが一時停止し、Bが再開されていると仮定) 6: *first = temp; (i==1, j==1)
ご覧のとおり、前のシナリオの最後では、i
とj
はどちらも値1になる。この時点以降、これらの変数が他の値になることはあり得ない。
上記のシナリオは、プログラムの誤った結果を説明するのに十分な1つの例にすぎない。もちろん、この例の10個のスレッドの場合、レース条件ははるかに複雑になるだろう。
synchronized
レース条件を回避する
上記のプログラムの誤動作は、複数のスレッドが同じ変更可能なデータにアクセスし(そのうちの少なくとも1つがデータを変更した)、発生している。このようなレースコンディションを回避する1つの方法は、共通のコードにキーワードsynchronized
を指定することだ。次の変更を加えると、プログラムは正しく動作する。
出力:
前: 1と2
後 : 1と2 ← 正しい結果
synchronized
の効果は、バックグラウンドでロックを作成し、特定の時点において1つのスレッドのみがそのロックを保持できるようにすることだ。ロックを保持しているスレッドのみ実行可能となり、他のスレッドは、実行中のスレッドがsynchronized
ブロックを完了してロックが再び利用可能になるまで待機する。同期化されたコードは一度に1つのスレッドによって実行されるため、各スレッドは、別のスレッドが同じ操作を行う前に、値を安全に交換する。同期化されたブロックの処理が終了すると、変数i
およびj
の状態は、常に"1 および 2"または"2 および 1"になる。
注釈:スレッドがロックを待つことは比較的コストの高い操作であり、プログラムの実行を著しく遅らせる可能性がある。幸い、synchronized
ブロックを使用せずに、後で説明するアトミック操作を利用することで、プログラムの正確性を確保できる場合がある。
複数のコードブロックを同期する必要がある場合は、synchronized
キーワードを使用して1つ以上のロックを指定することができる。
同じ共有変数にアクセスする2つの別々のコードブロックを含む次のプログラムで、この例を見てみよう。このプログラムは、同じ変数のアドレスを持つ2つの関数を呼び出し、一方の関数はその変数を指定された回数だけ加算し、もう一方の関数は指定された回数だけ減算する。
注釈:上記の式の短縮形 (++(*value)
および‑‑(*value)
) を使用すると、shared
変数に対するこのような読み取り-変更-書き込み操作は廃止予定であるとの警告がコンパイラから表示される。
残念ながら、これらのブロックを個別にsynchronized
でマークするだけでは不十分である。なぜなら、2つのブロックの匿名ロックは独立しているため、2つのコードブロックは依然として同じ変数を同時にアクセスするからだ:
同じ変数を同じ回数加算および減算するスレッドの数が同じであるため、number
の最終的な値は0になることが予想される。しかし、ほとんどの場合、そうはならない。
最終値: -672 ← 0ではない
複数のブロックが同じロックまたはロックを使用するには、synchronized
の括弧内にロックオブジェクトを指定する必要がある:
注釈:この機能はdmd 2.098.1ではサポートされていない。
Dでは、任意のクラスオブジェクトをsynchronized
ロックとして使用できるため、特別なロック型は必要ない。次のプログラムは、そのオブジェクトをロックとして使用する、Lock
という空のクラスを定義している。
今回は両方のsynchronized
ブロックが同じロックで接続されているため、いずれか一方のみが実行され、結果は期待通り0になる:
最終値: 0 ← 正しい結果
クラス型もsynchronized
として定義することができる。これは、その型の非静的メンバ関数がすべて、そのクラスの特定のオブジェクトで同期化されることを意味する。
以下のコードは、上記のクラス定義と等価である:
複数のオブジェクトでコードブロックを同期化する必要がある場合は、それらのオブジェクトを一緒に指定する必要がある。そうしないと、複数のスレッドが、他のスレッドが待機しているオブジェクトをロックしてしまう可能性があり、その場合はプログラムがデッドロック状態になる可能性がある。
この問題のよく知られた例は、ある銀行口座から別の銀行口座へ送金を行う関数だ。この関数がマルチスレッド環境で正しく動作するには、まず両方の口座をロックする必要がある。しかし、次の試みは間違っている。
このエラーは、1つのスレッドが口座Aから口座Bへ送金しようとしている間に、別のスレッドが逆方向の送金を試みた場合で説明できる。各スレッドは、それぞれが対応するfrom
オブジェクトをロックし、次にto
オブジェクトをロックするつもりだった可能性がある。from
オブジェクトは、2つのスレッドでそれぞれAとBに対応しているため、オブジェクトは別々のスレッドでロック状態になり、もう一方のスレッドがto
オブジェクトをロックできなくなる。この状況はデッドロックと呼ばれる。
この問題の解決策は、オブジェクト間の順序関係を定義し、その順序でロックすることだ。これは、synchronized
文によって自動的に処理される。Dでは、このようなデッドロックを回避するには、同じsynchronized
文でオブジェクトを指定するだけで十分である。
注釈:この機能はdmd 2.098.1ではサポートされていない。
単一の初期化にはshared static this()
、単一の最終化にはshared static ~this()
モジュール(その変数を含む)の初期化にstatic this()
を使用できることは既に説明した。データはデフォルトでスレッドローカルであるため、モジュールレベルの変数をすべてのスレッドで初期化するには、static this()
をすべてのスレッドで実行する必要がある:
上記のstatic this()
ブロックは、メインスレッドとワーカースレッドでそれぞれ1回ずつ実行される:
static this()を実行している
static this()を実行している
これは、shared
モジュール変数に問題を引き起こす。変数を複数回初期化することは、特に並行処理においてレース条件により不正な動作を引き起こすためだ。(これは、immutable
変数にも適用される。なぜなら、それらは暗黙的にshared
であるためだ。)解決策は、プログラムごとに一度だけ実行されるshared static this()
ブロックを使用することだ:
出力:
6B0120でプログラムごとの変数を初期化 ← 1回のみ
7FBDB36557D0でスレッドごとの変数を初期化
7FBDB3554670でスレッドごとの変数を初期化
同様に、shared static ~this()
は、プログラムごとに一度だけ実行する必要がある最終操作に使用する。
アトミック操作
特定の変数を1つのスレッドだけが変更するようにするためのもう1つの方法は、アトミック操作を使うことだ。この機能は、マイクロプロセッサ、コンパイラ、またはオペレーティングシステムによって提供されている。
Dのアトミック操作は、core.atomic
モジュールにある。この章では、その関数のうち2つだけを見ていく。
atomicOp
この関数は、そのテンプレートパラメータを2つの関数パラメータに適用する。テンプレートパラメータは、 "+"
, "+="
,
上記の行は、以下の行と等価だが、+=
操作が他のスレッドによって中断されずに実行される点(つまり、アトミックに実行される点)が異なる:
したがって、同期化が必要なのがバイナリ演算のみの場合は、ロックを取得する必要があるため遅くなることが知られているsynchronized
ブロックは必要ない。atomicOp
を使用するincrementer()
およびdecrementer()
関数の以下の同等も正しい。Lock
クラスも不要になったことに注意しよう。
atomicOp
は、他の二項演算子とも使用可能である。
cas
この関数の名前は、"compare and swap"の略語だ。その動作は、変数が現在の値を持っている場合に、その値を変更すると表現できる。この関数は、変数の現在の値と希望する値を同時に指定して使用する。
cas()
が動作しているときに変数の値がまだcurrentValue
であるということは、このスレッドが最後に変数を読み込んだ後、他のスレッドによって変数が変更されていないことを示している。その場合、cas()
は、変数にnewValue
を代入し、true
を返す。一方、変数の値がcurrentValue
と異なる場合、cas()
は変数を変更せず、false
を返す。
次の関数は、現在の値を再読み込みし、操作が成功するまでcas()
を呼び出す。ここでも、これらの呼び出しは、変数の値が古い値と等しい場合、新しい値に置き換える、と表現することができる。
上記の関数は、synchronized
ブロックを使用せずに正しく動作する。
ほとんどの場合、core.atomic
モジュールの機能は、synchronized
ブロックを使用する場合よりも数倍高速だ。同期が必要な操作が1つのコードブロック未満である場合は、このモジュールの使用を検討することをお勧めする。
アトミック操作は、ロックフリーのデータ構造も実現するが、これは本書の範囲外である。
core.sync
パッケージも調査することをお勧めする。このパッケージには、以下のモジュールに古典的な並行処理プリミティブが含まれている。
core.sync.barrier
core.sync.condition
core.sync.config
core.sync.exception
core.sync.mutex
core.sync.rwmutex
core.sync.semaphore
要約
- スレッドが他のスレッドに依存しない場合は、並列処理を優先。スレッドが他のスレッドの操作に依存する場合にのみ、並行処理を検討。
- その場合でも、前章で説明したメッセージパッシング並行処理を優先。
shared
データのみが共有可能で、immutable
は暗黙的にshared
である。__gshared
は、CやC++言語と同様のデータ共有を提供する。synchronized
は、スレッドが特定のコードを実行中に他のスレッドが介入するのを防ぐためのものだ。- クラスを
synchronized
として定義すると、特定のオブジェクトに対して、特定の時間に1つのメンバー関数しか実行できなくなる。つまり、スレッドは、同じオブジェクトに対して他のスレッドがメンバー関数を実行していない場合にのみ、メンバー関数を実行できる。 static this()
は、各スレッドごとに1回実行される;shared static this()
はプログラム全体で1回実行される。core.atomic
モジュールを使用すると、synchronized
よりも数倍高速な、安全なデータ共有が可能になる。core.sync
パッケージには、その他の並行処理プリミティブが多数含まれている。