ExcelファイルがTradosに読み込まれ、TTX形式になったファイルが翻訳エージェントから渡されました。TagEditorで開くと、Excelの構造がタグで表現されており、一見問題なさそうに見えたのですが、Excelのセルの内容がHTML形式であったのが問題になりました。 TradosはExcelの構造を解析してタグ付けしますが、その中身のHTMLの構造は解析しません。2重構造の外側だけが解析された形です。文末(改行)を意味する<br />タグも当然単なるテキストであり、これが意味するのは、Tradosが文章を区切れないということです。複数の文を含んだパラグラフ全体が翻訳メモリ上の1単位になってしまいます。翻訳メモリもエージェントから渡されていましたが、これでは翻訳メモリの内容と一致せず、そもそもTradosを使う意味がありません。 以下が具体例です。 This is the sentence we are talking about.<br />Trados doesn't recognize HTML tags.<br /> Tradosはこのパラグラフを2つの文としては解釈しません。ひとつの長い文として解釈します。文末のドット(.)はそのすぐ後ろに空白がないと文の区切りとはみなされません。<br />タグもただのテキストとして解釈され、文の区切りとしてはみなされません。 解決策:テキストエディタ(メモ帳など)で直接TTXファイルを編集します。 TTXファイルは単なるテキストファイルでしかありません。文字コードはUNICODEです。Windowsのメモ帳で開くと、上記の例は以下のように見えるはずです。 This is the sentence we are talking about.<br />Trados doesn't recognize HTML tags.<br /> "<br />" が、"<br />" に変換されているだけで、あとは同じです。 では、問題の<br />タグを以下のように置換します。 置換前:<br /> 置換後:<Tu Origin="manual" MatchPercent="100"><Tuv Lang="EN-US"><br /></Tuv><Tuv Lang="JA"><df Font="MS Mincho"><br /></df></Tuv></Tu> 英語(EN-US)から日本語(JA)に、100%一致、フォントはMS明朝で翻訳するという意味になります。<Tu>タグは Translation Unit (翻訳単位)です。 上記の置換は、TagEditorで "<br />" を "<br />" に翻訳したのと同等の意味になります。つまり、Tradosが解釈しない文末(<br />)を、テキストレベルで無理矢理置き換えることになります。 1点注意しなければならないのは、テキストエディタの置換には文字列長の制限がある場合があり、置換後の文字列が途中で切られてしまうことです。うまく二回に分けて置換するか、そのほかのテキストエディタを使用して制限を回避します。 置換したファイルを保存して、TagEditorで開くと<br />タグが翻訳済みとして表示されます。<br />タグが翻訳済みとなっていることで、TagEditorで文を「開く」と、<br />タグの直前までが1文として解釈されます。 <br />タグはすべて100%一致として表示されるので、「次の不完全一致を開いて取得」を利用すれば、翻訳済みの<br />タグをスキップしながら未翻訳の部分だけを効率よく翻訳できます。 このとき、4日間の翻訳期間で、私は最初の丸1日をこの問題解決に費やし、最終日は徹夜する羽目になりました。この情報がどなたかの徹夜を回避する役に立ちますように。 |