"SIGIR Paper Writing Tips"

SIGIR Paper Writing Tips - Microsoft Research


自分はIRの人ではないですが、CV(PR),  NLP, MLな人にも役立ちそうな事が多いので超意訳してみます。超意訳なので、正しいことは保証しません。「あれ?」と思った方はご自身でちゃんと英和辞書引いてください・・・


Tip 17は本当に秀逸ですよねぇ~~~



このTipsはPeter Baileyによるもので、

Creative Commons Attribution-NonCommercial

Creative Commons — Attribution-NonCommercial 3.0 Unported — CC BY-NC 3.0





I wrote this article based on SIGIR Paper Writing Tips - Microsoft Research ,written by Peter Bailey, distributed under the license of Creative Commons — Attribution-NonCommercial 3.0 Unported — CC BY-NC 3.0 . I believe and hope that this (terrible) translation does not violate any rights of the original author; but if you find any suspicous thing, please let me know. Im happy to respond your notices, including total deletion of this article. 



Tip 1. Titles describe the paper; dont mislead, overpromise, or be unduly punny. Less is more. A tweets length is too long. 

Tip 1. 「名は体を表す」:タイトルは論文を表す!ミスリードとか、盛りすぎとか、シャレ効かせすぎて狙いすぎ*1もダメ。Less is more. 140字は長すぎる。




Tip 2. Abstracts summarize the paper. In 1 short paragraph. Subject. Motivation. Goal. Method. Achievement. Make me want to read.

Tip 2. 「名は体を表す2」:アブストは論文の中身の要約です!1段落で収まる短さがグッド。対象-->動機-->ゴール-->手法-->結果。「本文を読みたくなるように書いてくれよ」


最後のポイントが全てですねぇ。でもこんなアブスト、めったに出会わないですよねぇ・・・。このところだと、これ(http://books.nips.cc/papers/files/nips24/NIPS2011_0668.pdf)の"easily be implemented in a few lines of MATLAB code"とか?


Tip 3. Intro: What are you doing? Why is it interesting and novel? Will I learn something in the next hour? 1/2 to 3/4 page max.

Tip 3. イントロでは以下のことについて0.5~~0.75ページで応える。 何の話をするか?なんで面白いか?どこが新しいの?で、これから1時間使って論文読んだら、俺は何か新しいことを知れるわけ?


Tip 4. Related Work. 30-40 citations is sweet spot; less means you dont know the area. Dont omit key works from other people.

Tip 4. 関連研究。30-40くらい引用しているといい感じ。少なすぎると勉強不足って感じ。(自分たちのチームじゃない人の)重要な研究は省いたらアカン。


数についてはCV, MLでは違うかも知れませんね。CVはテーマによっては関連研究が膨大すぎて、reviewを引用するしかなくなるケースもままありますからねぇ(特徴量とか)


Tip 5. Report experimental results with appropriate statistical info like error bars, confidence intervals, effect size. Please.

An increase in scores is not necessarily an improvement, its just some probability of improvement, which may be near zero.

Tip 5. 実験結果は統計的な裏付けとともに報告しましょう。標準偏差エラーバーとか、信頼区間とか、効果量とか。というか報告しろほんと頼むから。






でも統計的な裏付けは本当に重要ですよね。"We condut a statistical t-test (p = 0.05)." の一言だけで査読の時の信頼度全然違いますからねぇ・・・*3


Tip 6. ML is a means to an end, not the main meal. Feature engineering is only interesting if it gives insights on user behavior.

SIGIR is not ICML. ML helps us accomplish things, but the goal of IR is not better ML.

Tip 6. 機械学習は目的のための「手段」であって、IRのメインディッシュじゃありません。特徴量をゴリゴリ探すのが許されるのは、その結果がユーザ行動の解析に新しい洞察を与えてくれる時だけです。

SIGIR はICMLじゃありません。機械学習は目的を達成するお手伝いをしてくれますが、IRが目指すのは良い機械学習技術を作ることではないです。 





別にIRにおけるML paperを否定しているわけじゃないんやで、と。でも、ちゃんと「今回のこの素晴らしいprposed ML技術の開発によって、おやぁ?『IR技術に』以下のような新しい知見と洞察を得ることができましたぁ!」っていうのが(SIGIRとしては)嬉しいんだよ!というのがもともとの意図ではないかと。




Tip 7. Use Greek letters and maths/stats for precision and brevity. Explain intuitions in English. Dont assume familiarity.

Maths and stats is complex at the best of times, so make it easy to follow both what youre doing and why.

Tip 7. ギリシャ文字と数式と統計は、精密さと簡潔さのためだけに使うものです。直観はちゃんと自然言語(えーご)で説明してください。「これだけ書けばまあわかるよね」-->死亡フラグ。





Tip 8. Unless space-constrained, put lead authors name before citation cross-ref, so I dont have to flip back and forth always.

Tip 8. よっぽどスペースが足りない場合以外は、引用時には著者名を一緒に乗せてくれると引用文献の章と本文を行ったり来たりしないで済むので助かるなぁ。Sato [13]みたいにね。





一方、指定されたスタイルファイル使ってTexコンパイルしたのにエラーする某国内 -----censored-----


Tip 9. Citations. Run cross-ref update in Latex or Word before final submission. Check author names spelling; they might review!

Tip 9. 引用大事。最後の提出前にはちゃんと[?]がないか確認しましょうね。あと、著者の名前のスペルは本当に気をつけて・・・その人、レビュアーかもよ!






Tip 10. If evaluating with a test collection, use more than 1. Dont use pre 2000 exclusively. Theres more to life than ad hoc.

Ad hoc IR is great! Its really foundational for many things. Its not typical web search behavior however, nor is it micro-blog use behavior, nor .... A really interesting result is something that will generalize, like BM25 (which came from ad hoc IR research). Almost any test collection will have some peculiarities; make sure your findings are not overly limited.

Tip 10. テストデータで評価するときは、テストデータは2つ以上用意しましょう。20世紀の某データだけ使うとはNGですよ!Ad hoc検索だけがIR人生じゃないさ。

別にAd hocなIRシステムがダメってわけじゃないですよ。IRは全てAd hoc検索から始まったのだ・・・。しかし! でもそれは典型的な検索行動じゃないし、典型的なツイッタラーでもないし、・・・・。 今、本当に興味深いことは「一般化」できるはずなんです。たとえばもともとAd hoc IRで数字出すために作られた(偏見)BM25とか。どんなテストデータもそれ特有の特徴があるわけで、あなたの研究の成果がその特徴に引きずられないようにしましょう、ってことです。




IR業界の地下闘技場的 (?!) コンペ TREC (Text REtrieval Conference) の王道タスクのひとつであるAd hoc task [1] を意識した発言だと思います。Ad hoc taskではTREC2001時点でトピック数 [2] が全部合わせても550程度です。検索対象の評価済み文書数はたくさんあるのでデータセットとしてはそこそこの規模があるのですが、多様なクエリに対して検索結果上位10件を当てることが重視されるウェブ検索エンジンの評価とは本当に適切かと考えてしまいますよね。また、数多くの研究でTRECデータセットが用いられているので、古いデータセット(≒タスク) から得られる知見はもう十分にしゃぶりつくしたんじゃ1ない?これが2000年以前のデータを使うのは避けようという発言の意図かと思っています。つまり「いつまでもTREC Ad hocタスクだけを見てないで、それ以外にもいろんな世界があるんやで。」ということを言いたのかな、と思います。

[1] Ad hoc 検索が何かということについてはウェブ検索してくださいネ。はい、その行為がAd hoc 検索です (ドヤァ

[2] トピック≒クエリですが、TRECではトピックとしてキーワード (TITLE) 以外にdescription,narrativeといった追加情報が与えられます。それらをどのように使うかも検索システム側に裁量があります。


つまり、"pre 2000"の時代のデータセットで性能を競っても、それは今一般に課題となるIRシステムの対象ドメイン("典型的な検索行動", "典型的なツイッタラー")における主要タスク("検索結果上位10件を当てる", average precision @ K的なやつですかね) とは全く異なる特徴を持っているということです。そこだけで性能を主張されても、SIGIRガチ勢としては認められない、ってことですね。





パタレコが統計的機械学習、ひいてはBayes Riskにどんどん刈り取られて行くように、アドホック検索から始まったIRも一般化の方向にどんどんシフトしていっているのでしょうか。



Tip 11. Working with big log data doesnt make it interesting. Insights make it interesting. Especially ones which generalize.

This tip is a cousin of Tip 6; understanding matters more than just being able to run some experiments with lots of data.

Tip 11. 別に大きいログデータで実験したからって面白いわけじゃない。大事なのは実験結果からの洞察でしょ。特に一般化できる知見ね。

これはTips 6の親戚みたいなものです。何かを発見して理解すること、それはでかいデータでプログラム走らせらて実験できるようになりました!よりずっと重要ですから。




Tip 12. Building real IR systems involves much compromise. Dont overclaim for your new algorithm unless youve already tried it.

As an industrial researcher myself, its frustrating to read lines like "it should be easy to incorporate new algorithm and improve current systems". Unless the algorithm is making a 10% improvement in some (existing, industrial state-of-the-art) metric, its hard to justify the investment.

Tip 12. 実IRシステムを作るってのは妥協と努力の産物なんだ!簡単に「提案法は既存のシステムに容易に組み込める」とか、実際に組み込んでないなら書くんじゃない!!





Tip 13. Whats product interesting is not always research interesting, and vice versa. Whats both is not always publishable.

Industrial researchers in particular can fall prey to this trap - Nick Craswell articulated this crisply for me a few years ago, and understanding the line between them is a regular point of discussion internally for us within Microsoft. Sometimes its challenging to publish or otherwise share work about whats interesting and commercially sensitive. Similarly, an algorithm that obviously wont scale can still be useful if it provides insights into thinking differently about a problem.

Tip 13. 実プロダクトやってる人が興味を持つ部分と研究者が興味を持つ部分ってのは違うものです。両方とも満たすような話は必ずしも論文にならいんやで。

企業研究者は特にこの罠にはまりやすい・・ある意味で過剰に。Nick Craswell*7が数年前にこのことを生々しく話してくれたんだが。この二者の境界線はいったいどこにあるのかってのは何度も何度も弊社*8の中でも内々に議論されています。本当に面白くて、でも商業的にセンシティブなところを論文にしたり何らかの形でソサイエティで共有するってのいうのは時々凄く難しい。一方で、明らかにスケールしないようなアルゴリズム*9だって、ある実問題に新しい観点を与えてくれるのであれば非常に有用なのです。


Tip 14. Graphics. Make legends readable when printed on paper. If color essential to interpret output, make note in fig caption.

Tip 14. 絵と図。凡例は印刷したときに読めるような大きさじゃないとダメですよ。色分けがないと判読不能な図の場合には、ちゃんと"Best viewed in color"と書いておきましょう。





Tip 15. When selecting data to exclude, describe what you did and why. Otherwise its not clear what the bias in dataset will be.

From a reproducability standpoint, which is increasingly a part of the SIGIR reviewing guidelines, its essential to describe what you did (and did not) do.

Tip 15. 実験から事前に除外するデータがあるときは、どうやって除外したのか、あとその理由を書きましょう。そうじゃないと、このデータのもつバイアスは一体どういうものなんかがわからなくなります。 



Tip 16. Negative results can be interesting. What didnt work, and why not? Surely not all expts led directly to success? #dreamon

Tip 16. 「良くない実験結果」だって大事なことがあります。何がうまくいかなくて、それはなぜなのか?あらゆる実験がいつも直接成功につながるなんて、そんなわけあるわけないじゃないですかやだー!!




Tip 17. Your first audience is overworked, on a deadline, tired, had a glass of wine and put the kids to bed. That is your prior.

This tip is just "know your audience", and the environment under which theyre likely to read your paper. Make them happy to be reviewing, and make them work as little as possible. Reviewers want to accept papers, and are more likely to give useful feedback if it is clear you put in the maximum amount of work you could to get it accepted, not the minimum. 

Tip 17. あなたの論文の最初の読者(=査読者)はいつだって働き過ぎで、締め切りギリギリで、疲れ果てて、一杯酒を引っかけて、子供をベッドに押し込んでから「さて・・・」とおもむろにあなたのPDFを取り出します。これが査読者に対する正しい事前分布です。



ほんまこれ(査読者の事前分布*11 &査読者の気持ち)


Tip 18. Two words: Strunk and White. Read then follow: Rules of usage. Principles of composition. Matters of form. Misused words.

Tip 18. ソースはwiki つ http://en.wikipedia.org/wiki/The_Elements_of_Style 結論:author guidelineはちゃんと読んで、従いましょうね!




Tip 19. Dont pad out with lower quality work. >4:5 papers are rejected. Many great 8 page papers in past. Make it all shine.

SIGIR papers are often rejected due to their weakest part, not accepted due to their strongest. You cant afford weak parts.

Tip 19. 内容の薄い論文を水増ししてページ数を増やすな。4~5ページの内容で済む論文なら落とされます。今までどれだけ素晴らしい8ページの論文があったと思っているんですか。隅から隅まで磨き上げてフルにページを使いなさい。





Tip 20. Make your contributions clear. Both at the start and end of the paper. Also, Conclusions are not a summary. What changes?

Restating the papers contributions does not make a conclusion - I already read it. I want to know how the future may be different due to your work.

Tip 20. この論文の貢献(contribution)を明確にしましょう。論文の最初と最後に繰り返して書くくらいでちょうどいい。あと、結論は「要約」じゃないですからね。この論文を通じて、どんな違いを人類の知の体系に加えたのですか?(ニッコリ)



Contributionを明確に書くのは、個人的にも最近お気にいりです*13。あと、Future workってのは本当に大事ってことですよね。この論文を読んで、読者が次の研究ネタを思いつくくらいじゃないと、その業界に大きな寄与は残せないってことでしょうか。


Tip 21. Acknowledge those who helped you out. Thanks cost little, while forgetting may offend. If big help, make them a co-author. 

Tip 21. 謝辞には助けてもらった人を書ききりましょう。感謝するのはちょっとのtypeで済みますが、忘れるとすごく恨まれるかも知れません。すごく助けてもらったなら、共著者に加えるといいかも。




End of Tips: Thanks for all the feedback from the Twitter audience, hope you enjoyed them. What did I miss? What do you most love/hate in reading or writing or reviewing SIGIR papers?

最後のTips: ツイッターでリプくれた人たち、ありがとう。楽しんでもらえましたか?何か言い逃したことあるでしょうか?SIGIRの論文書いたり査読しているときに一番良いこと、やなことってなんでしょう? 




Tips – Thanks: A big shout out to many colleagues over years, especially to Dave Hawking, Nick Craswell, Ryen White & Susan Dumais.
















*6:原著者の方はMicrosoft Researchですね


*8:MS researchでしょうね