万千敌寇

Thousands Enemies

虽然我认为两个现代化(工作和社交)的大思路是没错的,我还是觉得具体执行计划上,我选了两个最难打的仗。我没理由相信我在生物信息上能有产出(无论是我之前搞深度学习搞不出来还是打游戏拉关系的失利)就像我觉得找一个仍然在扩张的埃理,而且还是止局限于网络的选择是错误的。我觉得中央简直是疯了,选这个不确定的方向来打架。不过我也觉得我也是个傻逼,无论是前后端还是新出来的ai都菜的不行。好消息是qq还算是有社交能力,不知道能不能找几个大佬要来几张科研加速卡。当然最美好的情况当然是我作为生物和信息的桥接人,但是某种意义上太美好以至于难以置信。

不过既然来了,我就试试去打一场漂亮的仗吧。毕竟我没得选。

生信的话,我目前觉得主要分几块:数据库存储组织,数据算法分析(算法、软件、服务器),数据信息挖掘(生物学),模型建模模拟。

似乎还有的快速查找/对比相似蛋白质序列的算法,是使用动态规划写的,要么都向前走一步对比,要么两个序列之一停一步,要么就不比了。真神仙

话说,轮式进攻扩大化是不是提出了一个名为耐心和坚韧的问题,因为你看我们功利化的计划导向毕竟是不可能讲什么“慢慢来”的。

我记得我讲过一个现象,人不该为眼前的各种鸡毛蒜皮终日忧愁,你看我之前总是琢磨万一我能找到姐姐,我会有多么浪漫和忠诚。后来的事大家也知道了,12月29日开始我就不算是有姐姐了。埃理问题估计也是这个结局吧。我没理由相信一个放着眼前的朋友不珍惜,但是不停去向外扩张的女生。但是我相信这一次我能学到不少从技术到方法论甚至是心态方面的东西,但愿分开的时候我能够比较释怀,毕竟高大如圣夜维新的亚梦,在21年3月份自己躲在家里然后去有限的找1对1的时候就已经离开了。之后的所有时间都被叫做后圣夜。无论是大一的沙赫特计划(现在看来很难说到底沙赫特计划成功了没有,一方面我们在恢复高中的后遗症方面有了长足的发展,但是另外一方面无论是实习还是比赛甚至是副业的发展都可以说是不足的)还是大二的转型运动和功名辻路,就算战果颇弱,我们一直在战斗。现在我看埃理这个问题,最后如果我能学到很多东西能够在有限的时间之内用可以说是“幻梦”的方式去自我麻痹(听上去像是精控剂),你说我们到底成功了吗?我不知道,也许时间也不知道。

csgo5杀。

同源性不一定有相似性,对猴子管用的药对人不管用

后来还有个叫pam的人研究某种基因到下一种基因的突变(进化)概率(当然不够好用,因为有可能反向进化)。听上去和孟德尔的统计学很像。点阵(dot matrix)啊,dp啊或者blast本质上都是一种统计手段

有一个有意思的问题就在于你能不能接受负分,负多少。如果你不能接受负分,那么0会一直继承下去,直到找到一个合适的两位对应开始游戏。但是万一呢?万一某一段距离总体是正分的,但是你接受不了负分,反而半场清零了。最后的总分比预计的更高,你能接受吗?

对于dp比对,现在的数据库太大了,急需搞一种高级比对方法

blast是什么呢,是在有限的区域里用动态规划。一般还有一种算期望值的方法,这个期望E=kmne^-bs 大概的意思就是序列串越长,数据库越大,可能性越少,理论上可以相似的期望值就越高。其他的是各种参数。

预处理先把低复杂度和重复的东西去掉,然后寻求种子。比如氨基酸是3,核酸是11,这样每个子序列都搞出来,长度为n就有n+w-1个种子,用各种打分矩阵来搞出来比对高与某个设定分的结果,比如abc子串可以和abc,acc,adc相匹配,然后在尝试扩展,三个能不能扩展到四个甚至五个?扩展也是有个最低分下限的。最后做参数评估。就是那个E越小越好。小于0.1就可以认为有价值了。

我大概有感觉XMY那个递推式是什么意思了,i和j到底谁空位和xmy这三个记号不矛盾。从计算机上大家喜欢用迭代和if。也就说一个函数记号就可以代表一个函数,一个函数能解决一套问题。但是这个生物学大概没有if else这个概念,所以xmy代表三种if else情况。但是这么写有一个好处。比如P(XMMY)=Axm * Amm * Amy然后我们只要知道xm、mm和my的概率是咋样的,直接乘就行。所以这就是马尔科夫链(很明显xm和mx概率不一样)

马尔可夫模型和隐马尔可夫模型重点差别在于知不知道状态路径。xmy本身就告诉你从左上角到右下角怎么走,但是隐马尔可夫是不会告诉你怎么走,他希望你要么穷举要么动规找出最有可能的那个走法。

所以他的公式是吧马尔可夫的那个求最大值变成加权求和,因为马尔可夫提倡状态转移,而饮马提倡状态生成

假如你现在有一小段序列,大概80位以内,但是你不知道他在什么位置,你有一个数据库,怎么找到位置呢?可以先用seeding&extending,然后再把比如马尔可夫的mxy把y的情况去掉(不允许小段空位)。甚至还有用seed哈希当作索引的方法。假如你能找到不错的位置,自有办法测试基因突变,比如算突变可能性,算了可能性就可以用似然法,在什么条件之下可以搞贝叶斯估计(md我概率统计学的不好)

注意突变和多态性和变异的差别,比如1%之内叫突变,5%之内叫多态性。变异是这俩的统称。

而突变可以影响起始终止以及蛋白编码变化,或者是蛋白剪切(外显子内含子之间)或是没有影响。一个正常人类都有很多的变异,那么怎么判断到底某个突变到底是不是影响着某个病呢?或者怎么确定比对位置和区间呢?

序列的同源比对理论上能够确定蛋白的空间结构,不过实际上未知的太多,有时甚至不知道它为什么要长这个样子人才不会得病。现在有各种维度的分类办法,所以也有一个叫支持向量机的东西,听上去像是线性代数的方法。确定空间模型一般是以同源的为基础在不同的突变上由分子学确定变化。各种化学键啊都可以搞起来。更正常的情况是相似度太低找不到模板。