


LLM论文笔记 27: Looped Transformers for Length Generalization
Transformer在长度泛化(length generalization)上表现有限,尤其是对未见长度的输入。本文重点研究解决这一问题的Loop Transformer架构(Looped Transformers),通过循环处理增加模型对输入长度的适应能力。注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文。1. RASP-L限制transformer无法处理包含循环的任务的长度泛化。,做到“n次transformer”
