- Published on
【论文分享】| KV 压缩技术综述:高效LLM推理的 KV Cache 优化
本文梳理近期主流的 KV 压缩/驱逐思路(Prefill vs. Decoding),对比 H2O、PyramidKV、SnapKV、Quest 等代表方法的策略与表现。
Wonderful stories from PaddlePaddle contributors
本文梳理近期主流的 KV 压缩/驱逐思路(Prefill vs. Decoding),对比 H2O、PyramidKV、SnapKV、Quest 等代表方法的策略与表现。
9 月 23 日,飞桨团队携手文心大模型走进浙江大学软件学院,带来一场特别的开源分享活动——“OpenSource in Paddle:浙大限定的开源大冒险”。
活动邀请多位飞桨资深工程师与产品经理,与浙大软院师生面对面交流,分享前沿的开源实践与大模型应用。现场气氛热烈,技术与创意交织,激发了关于开源的深度思考。
本工作旨在解决Serverless LLM 推理中的冷启动(Cold Start)问题。冷启动延迟严重影响了用户体验的关键指标——首令牌时间(Time-To-First-Token, TTFT)。
本文概述了大型语言模型(LLM)的后训练(post-training)方法,主要包括监督微调(Supervised Fine-tuning, SFT)、直接偏好优化(Direct Preference Optimization, DPO)和在线强化学习(Online Reinforcement Learning, Online RL)。尽量通过通俗易懂的方式介绍这些技术细节,适合对 LLM 有兴趣但非专业的读者。
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
“我之前以为 GLCC 就是大厂开放一些边角料课题给在校生练练手,但参与之后发现,飞桨的赛题足够硬核,它的难度、复杂度、完备度都远超我的预期。最终,它给我的收获也远超预期。”