NAKAMURA Minoru's Diary (2008年6月)

NAKAMURA Minoru の日記 (2008年6月)

2002 | 10 | 11 | 12
2003 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2004 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2005 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2006 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2007 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2008 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2009 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2010 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2011 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2012 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2013 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2014 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2015 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2016 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2017 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2018 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2019 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2020 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2021 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2022 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2023 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2024 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2025 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
2026 | 1 | 2 | 3 | 4 | 5 | 6

6/30 (月)

三島駅で見かけたバス広告。
Copyright 表示がないのが気になる。

このところJITコンパイラや動的バイナリ変換は、レジスタ間接分岐をどう扱うかという方法を調べて CGO や PLDI の論文を狩猟する。まとまったところでは Derek L. Brauening の博士論文が読みやすい。

間接分岐命令は分岐先がレジスタに載っているのでこの値を決定できないと、次に実行する命令が決まらない。動的バイナリ変換の場合その位置でコンパイルがぶちぶち切れてしまうし、次の飛び先は変換テーブルを納めたコードキャッシュから検索が必要になる。

解決策としては、コンパイル時に静的に分岐先を予測する(Static branch prediction)か、実行時に履歴を見て予測するか(Dynamic branch prediction)か、あとはコードの検索テーブルの持ち方を工夫するぐらいの3通りしかない。

Static branch prediction の場合、データフロー解析を行って間接分岐命令のターゲットレジスタの値を特定することになる。静的な解析と言ってもコンパイル自体は動的に行うので、コンパイルを開始した時点の実行コンテキスト(レジスタの値)は使える。

Dynamic branch prediction の場合、 CPU がやっている分岐予測機と同じようなことをする。

間接分岐命令が最後に実行した時のターゲット計算機の分岐先アドレス(target_addr)と対応する変換コードのアドレス(host_addr)をキャッシュしておく。次回の実行で target_addr がキャッシュした値と一致すれば host_addr を再利用できる。変換コードのルックアップがスキップできるので高速化できる。
ターゲット計算機の CALL 命令と RETURN 命令に着目して、ランタイム内に Software Return Stack を作って CALL 命令時にアドレスをプッシュして RETURN 時にポップする。
高級言語で書かれたプログラムの場合は CALL と RETURN がペアを作っていることが多いので、 RETURN 命令の飛び先を予測できる。
この場合、ターゲット計算機上の tail-call 最適化なんぞは邪魔にしかならない。

どの間接分岐最適化もコード書き換え対応との相性が悪いのが悲しいところ。 IBM 370 アーキってどうして最初から PC 相対分岐を作らなかったのかしら…

某所で大谷ご夫妻の結婚のお祝い会が内輪で開催。

お台場を望む風景

Written by NAKAMURA Minoru, Email: nminoru atmark nminoru dot jp, Twitter:@nminoru_jp