Haskellのレコード更新構文を詳しく

スタック・オーバーフローにて

<a href="http://ja.stackoverflow.com/questions/7270/text-parser-token-style%E3%81%AEemptyidents%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6">Text.Parser.Token.StyleのemptyIdentsの使い方について</a>
haskell - Text.Parser.Token.StyleのemptyIdentsの使い方について - スタック・オーバーフロー

といった質問をしたところ、このような回答を頂き、レコード更新構文についての詳細を知る必要を感じたので私的まとめ。
といってもほとんどHaskell Language Reportを見ていろいろ実験しただけなんですが。

レコード更新構文の解釈

3.15.3 Updates Using Field Labelsより。

${C}$ をコンストラクタ、 ${bs}$ を束縛の列、 ${v_{default}}$ を値として、 ${pick^C_i(bs, v_{default})}$ を次のように定義します：

「コンストラクタ ${C}$ の ${i}$ 番目のフィールドの名前が ${f}$ であり、かつ束縛の列 ${bs}$ に ${f}$ に関する束縛 ${f=v_{updated}}$ が含まれるならば ${pick^C_i(bs, v_{default}) = v_{updated}}$ である。そうでないならば ${pick^C_i(bs, v_{default})=v_{default}}$ である。」

データ型Tを

data T = ${C_1}$ { ${f^1_1}$ :: ${T^1_1}$ ... ${f^1_{k_1}}$ :: ${T^1_{k_1}}$ }
| ...
| ${C_m}$ { ${f^m_1}$ :: ${T^m_1}$ ... ${f^m_{k_m}}$ :: ${T^m_{k_m}}$ }

とすると、T型の式 ${e}$ に対するレコード更新構文 ${e}$ { ${bs}$ }は

${e}$ { ${bs}$ } = case ${e}$ of
        ${C_1}$ ${v^1_1}$ ... ${v^1_{k_1}}$ -> ${C_1}$ ${pick^{C_1}_1(bs, v^1_1)}$ ... ${pick^{C_1}_{k_1}(bs, v^1_{k_1})}$
       ...
        ${C_m}$ ${v^m_1}$ ... ${v^m_{k_m}}$ -> ${C_m}$ ${pick^{C_m}_1(bs, v^m_1)}$ ... ${pick^{C_m}_{k_m}(bs, v^m_{k_m})}$

に変換されます。

多相的な値と組合せるときの注意点

変換された式を見ると、要するにただのパターンマッチになっていることがわかります。
マッチされる式 e の型が多相的で、かつユーザが型シグネチャを供給していないならば e の型は精密化されません。

となると、例えば e が多相的な型を持ち、かつ e {bs} に単相的な型をユーザが与えていた場合、 e の値によって e {bs} の値が一意に決まらなかった場合などは困るわけで、このような場合曖昧性エラーが生じます。

具体的には以下のようなコードで曖昧性エラーが発生します。

data T a = T {element :: a, typeStr :: String}

class F a where mes :: a -> String
instance F Int where mes _ = "Int"
instance F Double where mes _ = "Double"

mkDefaultT :: F a => a -> T a
mkDefaultT x = T x (mes x)

defaultT :: (F a, Num a) => T a
defaultT = mkDefaultT 0

-- error!
modifiedT :: T Double
modifiedT = defaultT {element = 0.0}

defaultT は T Int 型のとき typeStr = "Int" で、 T Double 型のとき typeStr = "Double" です。なので、上の modifiedT の定義では defaultT {element = 0.0} の typeStr フィールドが "Int" なのか "Double" なのかが決定できす、曖昧性エラーとなります。

GHCはどこまで賢くやってくれるのか、という問題

上のような事情があるにはあるのですが、例えば以下のようなコードはコンパイルを通ります。

data T a = T {element :: String, typeStr :: String}

defaultT :: T a
defaultT = T "" "a"

-- error!
modifiedT :: T Double
modifiedT = defaultT {element = ""}

このケースでは defaultT にはいかなる制約もかかっていない forall a . T a という型がついており、このような場合は a がどんな型に具体化されようと e の値は変わらず T "" "a" です。
なので、 defaultT の型が曖昧でも modifiedT の定義は上のままでうまくいきます。

では、「型変数がどの型に具体化されても値が同じ」場合につねにうまくいくかというとそういうわけにもいかず、以下のコードはエラーになります。

data T a = T {element :: String, typeStr :: String}

class F a where mes :: a -> String
instance F Int where mes _ = "Int"
instance F Double where mes _ = "Double"

defaultT :: F a => T a
defaultT = T "" "a"

-- error!
modifiedT :: T Double
modifiedT = defaultT {element = ""}

単に defaultT の型に制約を増やしただけですが、これはエラーになります。
これはおそらく「型変数がどの型に具体化されても値が同じ」かどうかは型によってのみ判断されるからです。
forall a . F a => T a の型の値は「型変数 a が何に具体化されても同じ値」とは限らず、例えば

polyT :: F a => T a
polyT = mkPoly undefined
  where
    mkPoly :: F a => a -> T a
    mkPoly x = T "" (mes x)

のような値がありえます。

同じフィールド名に対するレコード更新構文

知ってた人には「今更」って感じなんでしょうが、

data User = Registered {uid :: Int, name :: String} | Guest {name :: String} deriving (Show)

updateName :: User -> String -> User
updateName u n = u {name = n}

-- 動作:
-- *Main> updateName (Registered {uid=0, name="Bob"}) "Alice"
-- Registered {uid = 0, name = "Alice"}
-- *Main> updateName (Guest {name="Alice"}) "Bob"
-- Guest {name = "Bob"}

みたいなの書けたんですね。知りませんでした。*1

*1:というかそもそも同じデータ型の定義中でならフィールド名被っててもいいのだということを初めて知りました。

claustrophobia

一般λがなんか書くとか

Haskellのレコード更新構文を詳しく

レコード更新構文の解釈

多相的な値と組合せるときの注意点

GHCはどこまで賢くやってくれるのか、という問題

同じフィールド名に対するレコード更新構文