В американския сайт на български език Дневник на глупостите на Ангел Петров написах следния коментар:
Пешката на пешко не ги разбира тия алгоритми и само копипейства политкоректните глупости от правилните източници. Не може да не е чул, че DeepSeek е с отворен сорс код, но очевидно не знае, какво означава това. Освен това използва Reinforcement learning, Chain of thought reasoning - Последователност на мислене, при което моделът е принуден да обяснява стъпка по стъпка „размишленията“ си, така че щом направи грешна стъпка да бъде коригиран. Например едно уравнение може да има три решения, едното от които да е най-лесно. Ако моделът не го избере, бива коригиран, така че да избира оптимален вариант на стъпка.
Model Distillation – Използва се голям езиков модел (ЛЛМ), за да обучава малък ЛЛМ как да отговаря, така че малкият да е на нивото на големия ЛЛМ...
Всъщност това е вече beyond his head.
По мое скромно убеждение четенето на Дневник е вредно за вашата интелигентност.
После добавих:
Още малко обука, за да не пишете глупости:
DeepSeek AI моделът има отворен код, което означава, че компанията позволява на изследователи, разработчици и други потребители да имат достъп до основния код и неговите „тегла“ (които определят как моделът обработва информация), за да използват, модифицират или подобряват.
Просто казано, както бъде обучен така ще отговаря.
И съвсем се отплеснах в обяснения:
Reinforcement learning (RL) и Chain of thought (CoT) са два различни подхода, използвани в машинното обучение и изкуствения интелект, особено в контекста на големи езикови модели (LLM).
Reinforcement learning (RL)
Обучението с подсилване е вид машинно обучение, при което агент се научава да взема решения чрез извършване на действия в среда, за да увеличи максимално кумулативните награди. Агентът получава обратна връзка под формата на награди или глоби и коригира действията си съответно. RL се използва широко в различни приложения, включително роботика, игра на игри и автономни системи.
Chain of thought (CoT)
Веригата на мисълта е техника за разсъждение, използвана в LLM за подобряване на техните способности за решаване на проблеми. Това включва генериране на междинни стъпки на разсъждение, преди да се стигне до окончателен отговор. Този подход помага на модела да раздели сложните проблеми на по-малки, управляеми части, което води до по-точни и надеждни резултати. CoT е особено полезен при задачи, които изискват логически разсъждения, като математически проблеми и предизвикателства при програмиране.
Model Distillation (Дестилацията на модела), известна още като дестилация на знания, е техника в машинното обучение, при която знанията от голям, сложен модел (често наричан модел „учител“) се прехвърлят към по-малък, по-прост модел (моделът „ученик“). Този процес позволява на по-малкия модел да постигне подобна производителност като по-големия модел, като същевременно е по-ефективен и по-лесен за внедряване.
Аре стига, за да не се объркате съвсем.