Великий физиолог И. Павлов использовал собак, чтоб понять, как учится их мозг, если собак поощрять за правильные действия и наказывать за неправильные. Один из разработчиков ИИ М. Минский использовал тот же принцип при создании компьютера, способного непрерывно учиться, получая условные вознаграждения (т.н. обучение с подкреплением). Этот метод сейчас широко используется во многих алгоритмах ИИ. Но он, к сожалению, все же далеко не так хорошо и быстро учится, как человеческий мозг. Первое прорывное открытие 2020 может решить эту проблему. Во-первых, наконец, поняв, почему человеческий мозг учится быстрей и эффективней. Во-вторых, переняв этот метод для ИИ, что сильно улучшит работу его алгоритмов. Но больше всего поражает сам способ и лежащая в его основе божественная простота в сочетании с возможной фантастической спекуляцией о причинах этой простоты. Все просто. 1) Принимая любое решение, мозг (а в случае ИИ — алгоритм) должен смоделировать будущее, чтоб адаптировать свое решение под него. 2) Цель такой адаптации всегда одна — получить вознаграждение за свой выбор: кусочек сахара для собаки, удовольствие человека в результате впрыска допамина или условное вознаграждение для обучающегося алгоритма. 3) До сих пор награда представлялась (собакам, людям, алгоритмам) в виде единственного варианта: угадал — получи свой кусочек, впрыск и т.д. не угадал — кури бамбук, а в следующий раз выбирай среди вариантов по-другому. Новое открытие, сделанное в DeepMind, заключается в том, что мозг как бы знает, ✔️ что мир устроен сложно и в нем царит случайность; ✔️ поэтому здесь нет единственного варианта будущего, а есть вероятностные распределения для любого будущего события; ✔️ и потому представлять вознаграждение за любой свой выбор нужно не в виде единственного выбора(получу- не получу), а в виде распределения вероятностей получения вознаграждения. Но держитесь за стул. - Это значит, что в модели реальности, сидящей в нашем мозге, просто не существует единого будущего, в котором материализуется лишь один из возможных вариантов каждого из событий. - Мозг будто знает, что живет в мультиверсе, в котором ВСЕ варианты событий возможны. И чтоб преуспеть в жизни, нужно их все держать в уме (в соответствие с заданным распределением вероятности) «Удивительно, как эта очень простая реакция дофамина предсказуемо следует интуитивным паттернам основных биологических процессов обучения, которые теперь становятся компонентом ИИ» — написал в емейле про это исследование Вольфрам Шульц, пионер поведения дофаминовых нейронов. Последствия этого открытия многочисленны. Оно позволит иначе взглянуть на многие процессы: от мотивации до психического здоровья. Что может означать, например, наличие «пессимистичных» и «оптимистичных» допаминовых нейронов? Если мозг избирательно прислушивается только к одному или другому, может ли это привести к химическому дисбалансу и вызвать депрессию? И как вообще допаминовые нейроны выбирают предпочтительный вариант будущей реальности из бесконечного мультиверса возможных? Взято с Дзена.
не понял, в чем открытие. все устроено от простейшего к сложному. даже у собак павлова или голубей скиннера не все так просто, т.к. вариативность событий большая, и сами варианты накладываются друг на друга. что уж говорить о человеческом мозге, который в силу своей сложности вынужден справляться с еще большей вариативностью.