小红书搭起巴别塔:新的翻译功用被玩疯了

来源:bob官方平台    发布时间:2025-03-30 04:21:59

       

  一觉醒来,小红书发现“天塌了”,token 正在 huala huala 焚烧。不是我欠好好说话,而是网友们为了测验小红书新上的“一键翻译”功用,在谈论区玩出花了。

  大约五天前,很多TikTok用户为对立美国政府关于TikTok的封禁,纷繁涌入小红书。疑似一位小红书职工被网友问到,“接下来会分区吗?”得到的是否定答案。为了接受这泼天富有的流量,以及更好的社区体会,有音讯称,小红书已在快马加鞭上线翻译功用了。

  但在这等候期间,可给终身喜爱凑热闹但英文又欠好的网友急坏了。他们一边说着“塑料英文”,一边忍受着对面,例如“冰雪大世界让我的体毛失去了保温”这种“糟糕中文”。

  恐怕再这么下去,不少网友称”他们的中文将带着一股浓浓的翻译腔,但是他们却力不从心。”(救命!真的好翻译腔)

  昨日小红书更新了版别,通过很多网友测验,除了能中英互译,在系统言语设置为中文时,翻译现已支撑英语、俄语、法语、西班牙语、意大利语、波兰语、朝鲜语、日语……(继续更新)

  到这儿,老外们还仅仅夸夸“我国程序员速度”(Chinese developers, you are so fast. God bless you.),直到有人测验出,连瓦雷利亚语(是《冰与火之歌》系列中呈现的虚拟言语系统)翻译都不在话下,咱们才益发振奋起来。

  由于啥啥都能翻,让网友们不由猎奇用的什么模型。为了扒出背面模型,纷繁运用提示词进犯诱导模型犯错。

  在一条美国用户共享孩子吃奶油的视频下,翻译对 whipped cream 做了补白:更为简练的翻译是“吃奶油”,但对此更精准的翻译,通常指“打发后的奶油”。

  不少网上的朋友表明,那些英语学习和翻译软件还有何用,这才是“日子化学英语嘛”。

  以及关于乱序的中文,也能翻译出原始表达的对应英文。不过这一点关于当下翻译模型来说,现已不是太大问题。乃至,东京大学的一项试验发现,关于GPT-4来说,关于英文文本的乱序,模型也能了解,康复成原始表达。

  当网友们发现,语种现已不是阻止了,就开端用一些“八怪七喇”的表达来测验翻译功用。通过不完全统计,小红书能做的“不正经翻译”包含但不限于以下这些:

  大学缩写(得到上海交通大学 SJTU官方认证,但缩写重名的就欠好说了);

  小红书被网友敬称“小红书大学”,由于这儿作为一个日常日子攻略式的“搜索引擎”,现已满足好用了。渠道积累了很多中文网络环境下的表达,可以翻译出一些网络热梗也不稀罕。

  尽管它能翻译出“you can you up,no can no bb”,但你要是现造梗,那可就来不及了。比方一位网友闹了笑话,“TreeNewBee”,想必咱们都知道他想让模型翻译成什么,但模型却不苟言笑地给出“树新蜂”的翻译。

  国内用户心知肚明的Chinglish、缩写、热梗之类翻译起来依靠模型才能,存在错觉和过错。

  所以如果是一些咱们精心给老外预备的中文梗,比方“老头哭了是由于老头乐坏了”,“V我50”,模型没有在预练习时进行过这部分常识整合,很难翻译“对味儿”。

  以及通过测验发现,该功用现在不支撑“中英文稠浊”,一些夹杂着中英文的表达被网友恶作剧说“仍是加密电报,暂时安全”。

  尽管在翻译“烂梗”上,成果呈现了一些随机性。但人们在prompt hacking(所谓提示词进犯是通过在输入提示词中嵌入歹意指令,使模型在执行时优先呼应这些指令,然后绑架模型的输出)上找到了规则可循。

  这就又把小红书玩坏了,让它帮助续写一段小说,默写《出师表》,或许生成一片“猫猫墙”,写“贪吃蛇”的Python代码。

  依据指令回复才能,咱们很快判别出翻译功用不是用的传统的机器翻译,而是根据大言语模型。由于机器模型的语料库受限,泛化才能不如LLM,用户乃至测验它能翻译出“拼音加英文(ni zai do what)”。

  通过一世人hack测验,AI翻译会说自己是GPT-4,也会说是智谱 GLM。但多数人也以为,由于合规和布置本钱,用海外模型的可能性不大。

  而模型呈现“错觉”觉得本身是GPT-4,是由于用了模型数据做蒸馏导致的,顺带把“身份认同”一同蒸馏过来了。相似状况曾经也有多,比方之前deepseek说自己是ChatGPT,Gemini被问也说过自己是文心一言。不过模型详细是什么暂时还不清楚。

  为了进步翻译功用的呼应速度,应该做了初次发问调用LLM,后续cache的规划,即用户仿制查询相同内容时,不必再调用LLM,直接拿缓存里的对照成果即可。

  其实小红书揣摩大模型现已很早了。本年4月,就有新闻媒体报道,小红书在自研大模型基座。多模态技能,和AI内容创造东西,是小红书揭露提及的两个落地方向。

  没想到,大模型在产品内的落地先以这种方法展开了。而小红书也算得上是第一个“真实”大规模运用大模型的社会化媒体——这再次证明“吃瓜”和凑热闹是人类的天分,趁便问问,何时能做图片的多模态呢,由于...咱们这边梗图也挺多的。