Gripper учится ... методом проб и ошибок

Dec 26, 2019

Вдохновленный человеческой рукой, LearningGripper имеет четыре пальца. С помощью программного обеспечения машинного обучения этот захват может справиться со сложным действием, таким как подбор и ориентация статьи. Основные положения пальцев и функция обратной связи от окружающей среды должны быть определены заранее; Захват изучает все другие последовательности движений методом проб и ошибок.

Задача LearningGripper, как показано на рисунке, состояла в том, чтобы поворачивать шар, пока логотип не окажется сверху. Вначале захват перемещал мяч случайным образом. Датчик положения в шарике обеспечивал обратную связь о том, как далеко был логотип от «ладони» захвата. LearningGripper получил вознаграждение по системе баллов; баллы обрабатываются в программном обеспечении машинного обучения. Со временем программное обеспечение разработало стратегию движения, и захватчик узнал, какие действия предпринять в конкретный момент. Он меняет свои движения, чтобы получить как можно больше положительных отзывов, и, наконец, находит надежное решение своей задачи. Если стратегия одного захвата передается другому, второй захватчик использует ее в качестве базы знаний для более эффективного изучения своей собственной стратегии.

LearningGripper демонстрирует, как системы в будущем смогут самостоятельно решать сложные задачи без сложного программирования. Самообучающиеся системы, такие как LearningGripper, могут быть установлены на производственной линии, а затем могут независимо оптимизировать их поведение.