剂量分配的Pytorch代码线使GPU使用GPU。麻省理工学
发布时间:2025-06-04 10:30
资料来源:DeepTech仅需要十二个-Pytorch代码线即可显着改善GPU的使用,而在NVIDIA A100中使用GPU的速率高达70%。这种能力是由Zhang Tianyuan创建的新型模型架构,该架构是北京大学的本科校友和美国麻省理工学院及其团队的医生。研究团队通过在各种方式的活动中使用了从2000万到100万个代币的大量更新来创建该模型的新体系结构。架构包括在使用大量长上下文进行测试时进行培训,并结合了用于建模本地结构的窗户注意机制。由于每个大块内的令牌被认为是一个拆卸器集,因此研究团队结合了乳注的注意力窗口,以捕获块内的局部依赖性,从而使乳液可以显着提高相似性。它可以扩大非线性快速权重,从而增加存储容量。 moreoVER,此简单的实现使得可以轻松整合更好的时间测试优化器(例如MUON)。此外,大型乳块设计也可以自然地用于对不同的n维数据进行建模,因为它可以使块的大小与内部数据结构相对,例如图像中的图像中的令牌组或块上连续的视频框架。为了验证该方法的有效性,研究团队在不同的数据模式和活动中进行了新的视图综合,包括从图像集,语言模型和自回归视频扩散模型。实验结果表明,研究团队模型最多可以处理128个输入图像,分辨率为960×536,从而产生结论 - 至100万个令牌,并且在此putum的这一规模上,它比在渲染质量技术中的3D高斯拆分技术要好。尽管语言数据本身并未清楚地包含块结构,但研究团队模型几乎达到了C与SOTA方法(例如Deltanet)相比,可观的性能。研究团队还通过将乳液与滑动窗口的注意相结合,将140亿个参数双向视频扩散变压器改编为自回归模型。该改编的模型可以生成相互关联的NA视频,其中包含多达56,000个视觉令牌。 。目前,研究小组已经开放了源代码和权重,并且期望乳皮动物促进人们对建模的更好和长期结构的探索(https://tianyuanzhang.com/projects/projects/tttt-done-right/)。目前,吞吐量开销较小至1%-3%,对长篇小说处理的需求正在迅速增长。尽管SoftMax的注意力已成为建模各种数据的解决方案,但计算成本随着逆境的长度四倍增加,这促进了对更好的长上下文建模的广泛研究。最近,测试时间培训(TTT,测试时间培训)已成为一个有前途且出色的建模二次序列的方法。测试时间训练可以在一个小型的在线自适应子网中重复神经网络中重复状态的概念。该子网络的参数也称为快速重量,它们通过自我游览目标快速在线适应,以记住上下文信息。最近,许多团队探索了快速重量网络的各种在线,优化器和架构目标。尽管如此,在长篇小说情况下,现有的测试时间训练方法仍然很难有效地衡量。主要原因是在测试期间使用硬件训练层非常低,并且当前GPU中的硬件使用率通常小于峰值计算能力的5%。这种胡说是由于使用小批量大小,即购买的权重的每一彼此更新或每16至64个令牌都会更新,这是因为这些传统观点更有效地研究研究语境。但是,处理此批次的小过程将导致相似性差和计算密度不足,尤其是在使用大型非线性减肥时,这将对有效的硬件实施造成重大挑战,因此,实际的计算强度使用速率很难通过10%的有效来源破裂。基于此,研究小组采用了相反的方法并引入了乳。如下图所示,腹腔块由三种类型的层组成:窗口注意层,大块测试层和进料层。 。窗口注意力层通过实现本地自我节省来获得本地依赖性SA。在审判期间,研究团队将依从性分配给了大块。研究小组表示,历史背景将通过“更新”操作逐渐压缩快速重量,最新权重“应用”到当前查询矢量(q)以计算其相应的输出。进料病房层执行类似于变压器的通道混合操作。由于测试期间的“更新”和“应用程序”操作正在衰减,因此可以轻松评估块的大小并应用于不同的订单,从而激活不同类型的数据依赖性的模拟。当块的大小等于术语的整个长度时 - 首先进行“应用程序”的操作,然后进行“更新”操作,这与整个注意力的机制相似。通过对“更新”操作和“应用程序”操作的替代使用,可以生成引起的块状掩模,其中块的大小对应于块的大小。在两个操作之间移动订单将导致遮罩偏移,并且偏移掩码不会泄漏块内的未来信息,如果整个原因掩盖了整个原因掩码,则基于Wikapangan的建模构建。 。但是,许多数据诸如视频,图像或文本集之类的模式不能基于此集合完全适合视图。对于这些方式,块内结构和局部性对于获得总体数据结构很重要。因此,研究团队将当地的窗户注意力层与测试时间训练层结合在一起,以处理块loob中的数据结构。此外,窗口的注意机制可以有效地获得局部数据特征。对于测试时间训练层,它允许集中于建模非本地依赖性的快速重量能力的固定尺寸。通常,LACT是一种混合体系结构,它使用二次计算机制来处理局部结构,并使用线性计算测试时间培训对非本地环境进行。上下文并行性(CP,上下文并行性)将解释分开 - 遵循上下文长度并分布到并行计算中的许多设备。前馈层和风OW的注意属于本地操作运营商,因此它自然支持并行性的背景。对于测试时的实践层,很难支持上下文的平行性,因此它们更喜欢时态平行。在研究团队测试的巨大块中,培训层通过塑造块内的令牌来实现上下文的上下文。当练习新的视图时,他们以并行的方式采用了这一观点,并观察到了一个很小的吞吐量开销1%至3%。同时,LACT结构可能与其他并行方法兼容,例如数据并行性,管道并行性和张量并行性。涵盖的实验:如前所述的新视图合成,语言建模和自回归视频世代,研究团队进行了有关新视图综合,语言建模和自回归视频的实验。在比较eksperimento以线性成本基线的方式中,reseaRCH团队添加了相同的窗户注意模块,以确保可以进行公平的比较。表丨每个实验的主要因素摘要(来源:ARXIV)在新的视图中,研究团队以级别和对象级别的水平来回顾此方法。他们使用objaverse数据集进行对象级别培训,并遵循LVSM和GS设置-LRM。完成培训后,研究团队在Google扫描对象(GSO)数据集上进行了审查,该数据集的分别为256×256和512×512。每个评论涉及每个对象的4至48个输入视图和8个新视图。对于场景级别的审查,研究团队采用了一个具有挑战性的DL3DV场景数据集,其中包含超过11,000 s的训练和140个测试场景,每个人都有大约300次观看次数,评估分辨率为960×536。对于身体级别检查的事物,研究团队使用了以下两个基线模型:注意力集中的模型:全部注意模型:整个模型的模型:整个模型的模型:整个模型。。整个基线模型用由注意力层引起的逐块取代了测试时间层,该层从新视图中激活了输入和交叉注意令牌之间的双向接触。寄存器的注意模型压缩了4096寄存器中的输入令牌,并通过这些寄存器中的交叉观察来降低新视图。在对场景水平的综述中,LongLRM研究团队将其比较了,该模型结合了Mamba和全部注意机制,可以用于3D高斯SPLAT的预言。此外,将它们与基于3D高斯溅射方法进行了纯粹优化。表丨在绩效分析中,所有模型(来源:ARXIV)的摘要计算复杂性,研究团队使用每个令牌损耗指标来评估该模型有效使用整个环境的能力。单调的减少损失表明成功使用上下文,而固定状态表示对上下文的使用有限。还报道了在大型块测试期间,他们从原始的乳块中删除了关注窗口的窗户层,并将滑动窗口(SWA,滑动窗口直接)直接放入训练层中,并将模型与整个注意力模型,门封线性注意(GLA,封闭式线性关注)和Deltanet进行了比较。为了确保仍然是TAS,它们增强了GLA和Deltanet的同一窗口层层,并使用100万个绳索库训练了32K上下文。表丨通过训练(来源:ARXIV)将所有技术和训练机制的摘要比较块递归和递归令牌,与条件控制的实验,线性大块团队收缩方法比在相同大小的招聘中的线性图表策略更好。由于该语言本身没有自然具有块结构,因此研究团队建议的线性大块递归变体不如早期阶段GLA和Damtanet等逐个标记的方法。豪夫R与大型非线性状态和MUON优化结合使用时,该变体的性能将超过ITO的ITO逐个标记。通常,此结果具有计算效率和大型试验训练的优势,为更好和测量的上下文建模序列提供了一种方法。通过在低水平的特定硬件上删除依赖关系,乳皮动物使人们可以更广泛地探索建筑设计空间。将来,研究小组希望这项工作能够激发和加速情境化和测试时间培训领域的新研究。参考:https://arxiv.org/abs/2505.23884操作/类型:He Chenlong