netifd: Do not add local/source policy rules multiple times
[project/netifd.git] / system-linux.c
index 7beae09..2b17764 100644 (file)
@@ -30,6 +30,7 @@
 #include <linux/rtnetlink.h>
 #include <linux/sockios.h>
 #include <linux/ip.h>
+#include <linux/if_addr.h>
 #include <linux/if_link.h>
 #include <linux/if_vlan.h>
 #include <linux/if_bridge.h>
 #define RTN_FAILED_POLICY 12
 #endif
 
+#ifndef RT_TABLE_PRELOCAL
+#define RT_TABLE_PRELOCAL 128
+#endif
+
+#ifndef IFA_F_NOPREFIXROUTE
+#define IFA_F_NOPREFIXROUTE 0x200
+#endif
+
+#ifndef IFA_FLAGS
+#define IFA_FLAGS (IFA_MULTICAST + 1)
+#endif
+
+
 #include <string.h>
 #include <fcntl.h>
 #include <glob.h>
 #include <time.h>
+#include <unistd.h>
 
 #include <netlink/msg.h>
 #include <netlink/attr.h>
@@ -280,6 +295,43 @@ static void system_set_igmpversion(struct device *dev, const char *val)
        system_set_dev_sysctl("/proc/sys/net/ipv4/conf/%s/force_igmp_version", dev->ifname, val);
 }
 
+static void system_set_mldversion(struct device *dev, const char *val)
+{
+       system_set_dev_sysctl("/proc/sys/net/ipv6/conf/%s/force_mld_version", dev->ifname, val);
+}
+
+static void system_set_neigh4reachabletime(struct device *dev, const char *val)
+{
+       system_set_dev_sysctl("/proc/sys/net/ipv4/neigh/%s/base_reachable_time_ms", dev->ifname, val);
+}
+
+static void system_set_neigh6reachabletime(struct device *dev, const char *val)
+{
+       system_set_dev_sysctl("/proc/sys/net/ipv6/neigh/%s/base_reachable_time_ms", dev->ifname, val);
+}
+
+static void system_set_dadtransmits(struct device *dev, const char *val)
+{
+       system_set_dev_sysctl("/proc/sys/net/ipv6/conf/%s/dad_transmits", dev->ifname, val);
+}
+
+static void system_bridge_set_multicast_to_unicast(struct device *dev, const char *val)
+{
+       system_set_dev_sysctl("/sys/class/net/%s/brport/multicast_to_unicast", dev->ifname, val);
+}
+
+static void system_bridge_set_hairpin_mode(struct device *dev, const char *val)
+{
+       system_set_dev_sysctl("/sys/class/net/%s/brport/hairpin_mode", dev->ifname, val);
+}
+
+static void system_bridge_set_multicast_router(struct device *dev, const char *val, bool bridge)
+{
+       system_set_dev_sysctl(bridge ? "/sys/class/net/%s/bridge/multicast_router" :
+                                      "/sys/class/net/%s/brport/multicast_router",
+                             dev->ifname, val);
+}
+
 static int system_get_sysctl(const char *path, char *buf, const size_t buf_sz)
 {
        int fd = -1, ret = -1;
@@ -332,11 +384,34 @@ static int system_get_igmpversion(struct device *dev, char *buf, const size_t bu
                        dev->ifname, buf, buf_sz);
 }
 
+static int system_get_mldversion(struct device *dev, char *buf, const size_t buf_sz)
+{
+       return system_get_dev_sysctl("/proc/sys/net/ipv6/conf/%s/force_mld_version",
+                       dev->ifname, buf, buf_sz);
+}
+
+static int system_get_neigh4reachabletime(struct device *dev, char *buf, const size_t buf_sz)
+{
+       return system_get_dev_sysctl("/proc/sys/net/ipv4/neigh/%s/base_reachable_time_ms",
+                       dev->ifname, buf, buf_sz);
+}
+
+static int system_get_neigh6reachabletime(struct device *dev, char *buf, const size_t buf_sz)
+{
+       return system_get_dev_sysctl("/proc/sys/net/ipv6/neigh/%s/base_reachable_time_ms",
+                       dev->ifname, buf, buf_sz);
+}
+
+static int system_get_dadtransmits(struct device *dev, char *buf, const size_t buf_sz)
+{
+       return system_get_dev_sysctl("/proc/sys/net/ipv6/conf/%s/dad_transmits",
+                       dev->ifname, buf, buf_sz);
+}
+
 // Evaluate netlink messages
 static int cb_rtnl_event(struct nl_msg *msg, void *arg)
 {
        struct nlmsghdr *nh = nlmsg_hdr(msg);
-       struct ifinfomsg *ifi = NLMSG_DATA(nh);
        struct nlattr *nla[__IFLA_MAX];
        int link_state = 0;
        char buf[10];
@@ -344,12 +419,12 @@ static int cb_rtnl_event(struct nl_msg *msg, void *arg)
        if (nh->nlmsg_type != RTM_NEWLINK)
                goto out;
 
-       nlmsg_parse(nh, sizeof(*ifi), nla, __IFLA_MAX - 1, NULL);
+       nlmsg_parse(nh, sizeof(struct ifinfomsg), nla, __IFLA_MAX - 1, NULL);
        if (!nla[IFLA_IFNAME])
                goto out;
 
        struct device *dev = device_get(nla_data(nla[IFLA_IFNAME]), false);
-       if (!dev || dev->type->keep_link_status)
+       if (!dev)
                goto out;
 
        if (!system_get_dev_sysctl("/sys/class/net/%s/carrier", dev->ifname, buf, sizeof(buf)))
@@ -498,16 +573,26 @@ static char *system_get_bridge(const char *name, char *buf, int buflen)
        return path + 1;
 }
 
-static void system_bridge_set_wireless(const char *bridge, const char *dev)
+static void
+system_bridge_set_wireless(struct device *bridge, struct device *dev)
 {
-       snprintf(dev_buf, sizeof(dev_buf),
-                "/sys/devices/virtual/net/%s/brif/%s/multicast_to_unicast",
-                bridge, dev);
-       system_set_sysctl(dev_buf, "1");
+       bool mcast_to_ucast = dev->wireless_ap;
+       bool hairpin = true;
+
+       if (bridge->settings.flags & DEV_OPT_MULTICAST_TO_UNICAST &&
+           !bridge->settings.multicast_to_unicast)
+               mcast_to_ucast = false;
+
+       if (!mcast_to_ucast || dev->wireless_isolate)
+               hairpin = false;
+
+       system_bridge_set_multicast_to_unicast(dev, mcast_to_ucast ? "1" : "0");
+       system_bridge_set_hairpin_mode(dev, hairpin ? "1" : "0");
 }
 
 int system_bridge_addif(struct device *bridge, struct device *dev)
 {
+       char buf[64];
        char *oldbr;
        int ret = 0;
 
@@ -516,7 +601,12 @@ int system_bridge_addif(struct device *bridge, struct device *dev)
                ret = system_bridge_if(bridge->ifname, dev, SIOCBRADDIF, NULL);
 
        if (dev->wireless)
-               system_bridge_set_wireless(bridge->ifname, dev->ifname);
+               system_bridge_set_wireless(bridge, dev);
+
+       if (dev->settings.flags & DEV_OPT_MULTICAST_ROUTER) {
+               snprintf(buf, sizeof(buf), "%i", dev->settings.multicast_router);
+               system_bridge_set_multicast_router(dev, buf, false);
+       }
 
        return ret;
 }
@@ -744,6 +834,7 @@ sec_to_jiffies(int val)
 
 int system_bridge_addbr(struct device *bridge, struct bridge_config *cfg)
 {
+       char buf[64];
        unsigned long args[4] = {};
 
        if (ioctl(sock_ioctl, SIOCBRADDBR, bridge->ifname) < 0)
@@ -761,7 +852,16 @@ int system_bridge_addbr(struct device *bridge, struct bridge_config *cfg)
                bridge->ifname, cfg->igmp_snoop ? "1" : "0");
 
        system_set_dev_sysctl("/sys/devices/virtual/net/%s/bridge/multicast_querier",
-               bridge->ifname, cfg->igmp_snoop ? "1" : "0");
+               bridge->ifname, cfg->multicast_querier ? "1" : "0");
+
+       snprintf(buf, sizeof(buf), "%i", cfg->hash_max);
+       system_set_dev_sysctl("/sys/devices/virtual/net/%s/bridge/hash_max",
+               bridge->ifname, buf);
+
+       if (bridge->settings.flags & DEV_OPT_MULTICAST_ROUTER) {
+               snprintf(buf, sizeof(buf), "%i", bridge->settings.multicast_router);
+               system_bridge_set_multicast_router(bridge, buf, true);
+       }
 
        args[0] = BRCTL_SET_BRIDGE_PRIORITY;
        args[1] = cfg->priority;
@@ -953,7 +1053,7 @@ int system_vlandev_del(struct device *vlandev)
        return system_link_del(vlandev->ifname);
 }
 
-static void
+void
 system_if_get_settings(struct device *dev, struct device_settings *s)
 {
        struct ifreq ifr;
@@ -967,6 +1067,10 @@ system_if_get_settings(struct device *dev, struct device_settings *s)
                s->flags |= DEV_OPT_MTU;
        }
 
+       s->mtu6 = system_update_ipv6_mtu(dev, 0);
+       if (s->mtu6 > 0)
+               s->flags |= DEV_OPT_MTU6;
+
        if (ioctl(sock_ioctl, SIOCGIFTXQLEN, &ifr) == 0) {
                s->txqueuelen = ifr.ifr_qlen;
                s->flags |= DEV_OPT_TXQUEUELEN;
@@ -1001,15 +1105,65 @@ system_if_get_settings(struct device *dev, struct device_settings *s)
                s->igmpversion = strtoul(buf, NULL, 0);
                s->flags |= DEV_OPT_IGMPVERSION;
        }
+
+       if (!system_get_mldversion(dev, buf, sizeof(buf))) {
+               s->mldversion = strtoul(buf, NULL, 0);
+               s->flags |= DEV_OPT_MLDVERSION;
+       }
+
+       if (!system_get_neigh4reachabletime(dev, buf, sizeof(buf))) {
+               s->neigh4reachabletime = strtoul(buf, NULL, 0);
+               s->flags |= DEV_OPT_NEIGHREACHABLETIME;
+       }
+
+       if (!system_get_neigh6reachabletime(dev, buf, sizeof(buf))) {
+               s->neigh6reachabletime = strtoul(buf, NULL, 0);
+               s->flags |= DEV_OPT_NEIGHREACHABLETIME;
+       }
+
+       if (!system_get_dadtransmits(dev, buf, sizeof(buf))) {
+               s->dadtransmits = strtoul(buf, NULL, 0);
+               s->flags |= DEV_OPT_DADTRANSMITS;
+       }
+}
+
+static void
+system_if_set_rps_xps_val(const char *path, int val)
+{
+       char val_buf[8];
+       glob_t gl;
+       int i;
+
+       if (glob(path, 0, NULL, &gl))
+               return;
+
+       snprintf(val_buf, sizeof(val_buf), "%x", val);
+       for (i = 0; i < gl.gl_pathc; i++)
+               system_set_sysctl(gl.gl_pathv[i], val_buf);
+}
+
+static void
+system_if_apply_rps_xps(struct device *dev, struct device_settings *s)
+{
+       long n_cpus = sysconf(_SC_NPROCESSORS_ONLN);
+       int val;
+
+       if (n_cpus < 2)
+               return;
+
+       val = (1 << n_cpus) - 1;
+       snprintf(dev_buf, sizeof(dev_buf), "/sys/class/net/%s/queues/*/rps_cpus", dev->ifname);
+       system_if_set_rps_xps_val(dev_buf, s->rps ? val : 0);
+
+       snprintf(dev_buf, sizeof(dev_buf), "/sys/class/net/%s/queues/*/xps_cpus", dev->ifname);
+       system_if_set_rps_xps_val(dev_buf, s->xps ? val : 0);
 }
 
 void
 system_if_apply_settings(struct device *dev, struct device_settings *s, unsigned int apply_mask)
 {
        struct ifreq ifr;
-
-       if (!apply_mask)
-               return;
+       char buf[12];
 
        memset(&ifr, 0, sizeof(ifr));
        strncpy(ifr.ifr_name, dev->ifname, sizeof(ifr.ifr_name));
@@ -1018,6 +1172,9 @@ system_if_apply_settings(struct device *dev, struct device_settings *s, unsigned
                if (ioctl(sock_ioctl, SIOCSIFMTU, &ifr) < 0)
                        s->flags &= ~DEV_OPT_MTU;
        }
+       if (s->flags & DEV_OPT_MTU6 & apply_mask) {
+               system_update_ipv6_mtu(dev, s->mtu6);
+       }
        if (s->flags & DEV_OPT_TXQUEUELEN & apply_mask) {
                ifr.ifr_qlen = s->txqueuelen;
                if (ioctl(sock_ioctl, SIOCSIFTXQLEN, &ifr) < 0)
@@ -1037,25 +1194,38 @@ system_if_apply_settings(struct device *dev, struct device_settings *s, unsigned
                        s->flags &= ~DEV_OPT_PROMISC;
        }
        if (s->flags & DEV_OPT_RPFILTER & apply_mask) {
-               char buf[2];
-
                snprintf(buf, sizeof(buf), "%d", s->rpfilter);
                system_set_rpfilter(dev, buf);
        }
        if (s->flags & DEV_OPT_ACCEPTLOCAL & apply_mask)
                system_set_acceptlocal(dev, s->acceptlocal ? "1" : "0");
        if (s->flags & DEV_OPT_IGMPVERSION & apply_mask) {
-               char buf[2];
-
                snprintf(buf, sizeof(buf), "%d", s->igmpversion);
                system_set_igmpversion(dev, buf);
        }
+       if (s->flags & DEV_OPT_MLDVERSION & apply_mask) {
+               snprintf(buf, sizeof(buf), "%d", s->mldversion);
+               system_set_mldversion(dev, buf);
+       }
+       if (s->flags & DEV_OPT_NEIGHREACHABLETIME & apply_mask) {
+               snprintf(buf, sizeof(buf), "%d", s->neigh4reachabletime);
+               system_set_neigh4reachabletime(dev, buf);
+               snprintf(buf, sizeof(buf), "%d", s->neigh6reachabletime);
+               system_set_neigh6reachabletime(dev, buf);
+       }
+       if (s->flags & DEV_OPT_DADTRANSMITS & apply_mask) {
+               snprintf(buf, sizeof(buf), "%d", s->dadtransmits);
+               system_set_dadtransmits(dev, buf);
+       }
+
+       system_if_apply_rps_xps(dev, s);
 }
 
 int system_if_up(struct device *dev)
 {
        system_if_get_settings(dev, &dev->orig_settings);
        /* Only keep orig settings based on what needs to be set */
+       dev->orig_settings.valid_flags = dev->orig_settings.flags;
        dev->orig_settings.flags &= dev->settings.flags;
        system_if_apply_settings(dev, &dev->settings, dev->settings.flags);
        return system_if_flags(dev->ifname, IFF_UP, 0);
@@ -1126,10 +1296,13 @@ int system_if_check(struct device *dev)
        int ret = 1;
 
        msg = nlmsg_alloc_simple(RTM_GETLINK, 0);
-       if (!msg || nlmsg_append(msg, &ifi, sizeof(ifi), 0) ||
-           nla_put_string(msg, IFLA_IFNAME, dev->ifname))
+       if (!msg)
                goto out;
 
+       if (nlmsg_append(msg, &ifi, sizeof(ifi), 0) ||
+           nla_put_string(msg, IFLA_IFNAME, dev->ifname))
+               goto free;
+
        nl_cb_set(cb, NL_CB_VALID, NL_CB_CUSTOM, cb_if_check_valid, &chk);
        nl_cb_set(cb, NL_CB_ACK, NL_CB_CUSTOM, cb_if_check_ack, &chk);
        nl_cb_err(cb, NL_CB_CUSTOM, cb_if_check_error, &chk);
@@ -1138,9 +1311,10 @@ int system_if_check(struct device *dev)
        while (chk.pending > 0)
                nl_recvmsgs(sock_rtnl, cb);
 
-       nlmsg_free(msg);
        ret = chk.pending;
 
+free:
+       nlmsg_free(msg);
 out:
        nl_cb_put(cb);
        return ret;
@@ -1363,8 +1537,10 @@ static int system_addr(struct device *dev, struct device_addr *addr, int cmd)
 
                if (addr->valid_until) {
                        int64_t valid = addr->valid_until - now;
-                       if (valid <= 0)
+                       if (valid <= 0) {
+                               nlmsg_free(msg);
                                return -1;
+                       }
                        else if (valid > UINT32_MAX)
                                valid = UINT32_MAX;
 
@@ -1372,6 +1548,9 @@ static int system_addr(struct device *dev, struct device_addr *addr, int cmd)
                }
 
                nla_put(msg, IFA_CACHEINFO, sizeof(cinfo), &cinfo);
+
+               if (cmd == RTM_NEWADDR && (addr->flags & DEVADDR_OFFLINK))
+                       nla_put_u32(msg, IFA_FLAGS, IFA_F_NOPREFIXROUTE);
        }
 
        return system_rtnl_call(msg);
@@ -1544,6 +1723,8 @@ bool system_resolve_rt_table(const char *name, unsigned int *id)
                table = RT_TABLE_MAIN;
        else if (!strcmp(name, "local"))
                table = RT_TABLE_LOCAL;
+       else if (!strcmp(name, "prelocal"))
+               table = RT_TABLE_PRELOCAL;
 
        /* try to look up name in /etc/iproute2/rt_tables */
        else if ((f = fopen("/etc/iproute2/rt_tables", "r")) != NULL)
@@ -1597,18 +1778,6 @@ bool system_resolve_rpfilter(const char *filter, unsigned int *id)
        return true;
 }
 
-bool system_resolve_igmpversion(const unsigned int version, unsigned int *id)
-{
-       if (!version || version > 3)
-               return false;
-
-       *id = version;
-       if (*id == 3)
-               *id = 0;
-
-       return true;
-}
-
 static int system_iprule(struct iprule *rule, int cmd)
 {
        int alen = ((rule->flags & IPRULE_FAMILY) == IPRULE_INET4) ? 4 : 16;
@@ -1623,10 +1792,8 @@ static int system_iprule(struct iprule *rule, int cmd)
                .rtm_flags = 0,
        };
 
-       if (cmd == RTM_NEWRULE) {
+       if (cmd == RTM_NEWRULE)
                rtm.rtm_type = RTN_UNICAST;
-               rtm.rtm_flags |= NLM_F_REPLACE | NLM_F_EXCL;
-       }
 
        if (rule->invert)
                rtm.rtm_flags |= FIB_RULE_INVERT;
@@ -1717,6 +1884,10 @@ int system_flush_iprules(void)
        rule.flags = IPRULE_INET4 | IPRULE_PRIORITY | IPRULE_LOOKUP;
 
        rule.priority = 0;
+       rule.lookup = RT_TABLE_PRELOCAL;
+       rv |= system_iprule(&rule, RTM_NEWRULE);
+
+       rule.priority = 1;
        rule.lookup = RT_TABLE_LOCAL;
        rv |= system_iprule(&rule, RTM_NEWRULE);
 
@@ -1732,6 +1903,10 @@ int system_flush_iprules(void)
        rule.flags = IPRULE_INET6 | IPRULE_PRIORITY | IPRULE_LOOKUP;
 
        rule.priority = 0;
+       rule.lookup = RT_TABLE_PRELOCAL;
+       rv |= system_iprule(&rule, RTM_NEWRULE);
+
+       rule.priority = 1;
        rule.lookup = RT_TABLE_LOCAL;
        rv |= system_iprule(&rule, RTM_NEWRULE);
 
@@ -2050,19 +2225,18 @@ int system_update_ipv6_mtu(struct device *dev, int mtu)
                        dev->ifname);
 
        int fd = open(buf, O_RDWR);
-       ssize_t len = read(fd, buf, sizeof(buf) - 1);
-       if (len < 0)
-               goto out;
 
-       buf[len] = 0;
-       ret = atoi(buf);
+       if (!mtu) {
+               ssize_t len = read(fd, buf, sizeof(buf) - 1);
+               if (len < 0)
+                       goto out;
 
-       if (!mtu || ret <= mtu)
-               goto out;
-
-       lseek(fd, 0, SEEK_SET);
-       if (write(fd, buf, snprintf(buf, sizeof(buf), "%i", mtu)) <= 0)
-               ret = -1;
+               buf[len] = 0;
+               ret = atoi(buf);
+       } else {
+               if (write(fd, buf, snprintf(buf, sizeof(buf), "%i", mtu)) > 0)
+                       ret = mtu;
+       }
 
 out:
        close(fd);