Paper的来源
Papers with Code
paperswithcode是一站式的门户网站,可访问包括机器学习模型、数据集、方法、评估表和代码在内的开源资源
各类出版社的数据库
IEEE Xplore,检索IEEE旗下期刊和会议的文章
ACM Digital Library,检索ACM旗下期刊和会议的文章(如ACM Transactions on Knowledge Discovery from Data,即TKDD,CCF-B类期刊)
ScienceDirect,出版商Elsevier(中文:爱思唯尔)的数据库,多学科门类
dblp & WoS
如果只是找文章,且只找计算机学科的英文文章,dblp比Web of Science更好用。
arXiv
arXiv是一个预印本(preprint)网站,上面的文章很多都没有经过同行评审,质量没有保证但容易发现很新很潮的东西(2023年7月:Retentive Network,2023年10月:Vision RetNet)。总体来说不适合初学者投入大量精力
评估Paper的好坏
SCI分区与CCF目录
中科院、JCR分区是各个学科比较通用的评估指标。计算机学科有其特殊性,会议的重要程度不容小觑。CCF目录应当作为重要参照。
CCF不能代表一切
International Conference on Learning Representations, 即ICLR,含金量相当于CCF-A会议
如ICLR2018 - DCRNN,交通流量预测的经典Baseline之一,使用Bidirectional random walk来对空间依赖进行建模,使用encoder-decoder架构来对时间依赖进行建模;
再如ICLR2018 - GATs,Graph Attention Networks (GATs),即图注意力网络。
IEEE Transactions on Intelligent Vehicles,即T-IV,个人认为应当与T-ITS(CCF-B期刊)平级,T-IV也是智能交通领域的期刊
T-IV上,一篇轨迹预测的综述A Survey on Trajectory-Prediction Methods for Autonomous Driving
慎读OA期刊
MDPI出版社旗下的期刊,和IEEE Access等,这些开源期刊的文章质量方差太大了;尽管MDPI也有SCI 2区的期刊,IEEE Access现在是3区,曾经是2区。
研究方向的关键词
知道了研究方向的关键词(Index Terms, Key Words)后,可以快速找论文看。以交通预测方向为例
交通流量预测: traffic flow prediction, traffic prediction/forecasting
多维时序预测: Multivariate Time Series (MTS) Forecasting
时序预测: Time Series Forecasting
时空数据(时空数据挖掘): Spatial-Temporal (Data Mining)
热门的流派,魔改之
一种是时空Transformer,时间注意力和空间注意力做异质注意力融合,如PDFormer、STTN;
一种是GCN+GRU,即把图卷积融合到Gated Recurrent Units中,如DCRNN。
然后就可以去想怎么去魔改Backbone。比如依据先验知识给注意力加Mask(AAAI23-PDFormer),在GCN里加入图扩散卷积(Graph diffusion convolution, GDC)(AAAI21-ST-GDN)。
实在想不出来了,去看CV和NLP的顶会找灵感,做这些方向的老哥人多,玩得花。
开始写作
一篇IEEE Trans的结构
可以下载一份IEEE Trans期刊的Word模板来看。
├─Abstract, Index Terms
├─I.Introduction
├─II.Related Works
| ├─A.[Related Works of This Field]
| ├─B.[Related Works of Your Method]
| ├─C.[Optional]
| ├─D.[Optional]
├─III.Method (Methodology)
| ├─A.Problem Formulation (Preliminaries)
| ├─B.Framework Overview
| ├─C.[Framework Part.1] Preprocessing & Data Embedding
| ├─D.[...]
| ├─E.[End of Framework] Decoders & Output
├─IV.Experiments
| ├─A.Datasets
| | ├─1).Statistics (Details of each dataset)
| | ├─2).Data Splitting (6:2:2 or 7:2:1, with optional preprocessing)
| ├─B.Experimental Settings
| ├─C.Performance
| | ├─1).Eval Metrics(MAE, MAPE, RMSE, Cross Entropy)
| | ├─2).Baselines
| | ├─3).Benchmark
| ├─D.Ablation Study
| ├─E.[Optional] Comparisons of Computation Time
├─V.Conclusion
先做实验,再讲故事
做实验是不可能不失败的,我自己的H-STFormer有大约三分之一的实验根本没往论文里写,因为效果不行的这一部分对应的理论站不住脚。
理想状态下的科研:
Idea产生->理论推导->写专利->做实验->投期刊/会议
但实验失败发生在上述链条中的倒数第二环,且经常发生,发生之后难以补救。
AI科研成本可以很低,小规模数据集一张2080Ti就能玩,代码能力练好即可。可以这样调整CS.AI的科研模式:
Idea产生->改进主流模型->反复实验到效果能看->包装Idea(讲故事)->写期刊/会议论文->用小论文缩一篇专利来(可选)
动笔开始写
没跑出SOTA的数据之前,也可以练习写点东西。比如可以试着提前把小论文的Introduction和Realted Works(引言和文献综述部分)给写了。以下面两篇IEEE Trans为例,一篇是交通流量预测,发表在TNNLS上;另一篇是文本检测,来着院长组的工作,发表在TCSVT上。
Bidirectional Spatial-Temporal Adaptive Transformer for Urban Traffic Flow Forecasting
CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer
注意到两篇文章的II.Realted Works部分结束时,参考文献的标号都在40~50,也就是说把小论文的前两章写好大约需要粗读+精读文章的总数量大约是这么多,并且需要产生一些自己的理解(即使引用了也不可以完全抄,不然可能过不了查重系统)。
不推荐真的去写Survey(综述),顶刊的一篇Survey一般在200~300篇参考文献,全文双列排版大约20页。
另外,我个人认为在这个年代,一份12页左右的期刊论文(专指Regular Papers),参考文献的数量应控制在50~70篇。
文献管理工具
用EndNote或NoteExpress吧,学校买了,在图书馆的网站上获取。图为EndNote。
Comments NOTHING